DeepSeek R2: El modelo de IA chino que promete revolucionar el mercado con costos 97% más bajos que GPT-4

La empresa china de inteligencia artificial DeepSeek está desarrollando su modelo de próxima generación R2, y todo indica que podría cambiar las reglas del juego en el sector. Según los últimos rumores, el DeepSeek R2 será 97% más barato de entrenar que el GPT-4 y ha sido entrenado completamente utilizando GPUs de Huawei Ascend 910B.

Un reciente post en X por @deedydas ha generado un gran revuelo, afirmando que el nuevo modelo R2 empleará una arquitectura híbrida MoE (Mixture of Experts). Esta arquitectura avanzada combina mecanismos de selección de expertos y capas densas, optimizando cargas de trabajo de IA de alto rendimiento.

Características principales de DeepSeek R2

  • Parámetros: 1.2 billones (T), el doble que su predecesor, DeepSeek R1.
  • Arquitectura: Híbrida MoE, con 78 mil millones (B) de parámetros activos.
  • Costo de entrenamiento: 97.3% más barato que GPT-4o.
    • Costo por token de entrada: $0.07 por millón.
    • Costo por token de salida: $0.27 por millón.
  • Datos de entrenamiento: 5.2 Petabytes (PB).
  • Rendimiento: 89.7% en C-Eval 2.0.
  • Visión mejorada: 92.4% en COCO (evaluación de visión por computadora).
  • Utilización de hardware: 82% de eficiencia en la utilización de la infraestructura basada en Huawei Ascend 910B.

Además, DeepSeek ha logrado integrar verticalmente toda su cadena de suministro de IA, entrenando el R2 utilizando únicamente equipos internos. El rendimiento alcanzado se mide en unos impresionantes 512 PetaFLOPS de precisión FP16, lo que subraya la potencia del hardware propio de Huawei aplicado al entrenamiento del modelo.

¿Qué significa esto para el futuro de la IA?

Con un costo de entrenamiento drásticamente más bajo y una eficiencia de hardware notable, DeepSeek R2 se perfila como una solución altamente accesible para aplicaciones empresariales que requieran IA de alto rendimiento sin los elevados costos actuales. Si los rumores se confirman, el R2 podría convertirse en el modelo de IA más rentable del mercado, impulsando una nueva era de democratización en el acceso a la inteligencia artificial avanzada.

DeepSeek desarrolla su nuevo modelo de IA R2 con chips Huawei Ascend 910B

La startup china DeepSeek vuelve a captar la atención de la industria tecnológica, esta vez por el desarrollo de un nuevo modelo de inteligencia artificial: DeepSeek R2, que estaría impulsado por los potentes chips Huawei Ascend 910B.

DeepSeek ya había ganado notoriedad por ofrecer un modelo de lenguaje (LLM) altamente rentable y ahora apunta aún más alto con una nueva generación de tecnología lógica de IA. Según el bloguero de X, @deedydas, quien compartió información que se ha vuelto viral, el modelo DeepSeek R2 promete innovaciones significativas en el mercado de la inteligencia artificial.

Principales características de DeepSeek R2

De acuerdo con los detalles filtrados, DeepSeek R2 utilizaría una arquitectura híbrida MoE (Mixture of Experts), una versión avanzada de las arquitecturas MoE existentes. Esto incluiría un mecanismo de puertas mejorado y capas densas, optimizando el desempeño en cargas de trabajo exigentes de IA avanzada.

Entre los aspectos más destacados del nuevo modelo se encuentran:

  • 1.2 billones de parámetros en total, con 78 mil millones activos.
  • Un costo 97.3% más barato que ChatGPT-4 para uso empresarial, con tarifas de $0.07 por millón de tokens de entrada y $0.27 por millón de tokens de salida.
  • Uso de 5.2 petabytes de datos de entrenamiento.
  • Calificación de 89.7% en C-Eval 2.0, destacando su capacidad en tareas cognitivas.
  • Mejoras en visión computacional, alcanzando un 92.4% de precisión en COCO.
  • 82% de utilización de la capacidad de procesamiento de los chips Huawei Ascend 910B.
  • Potencia de cálculo de hasta 512 petaFLOPS en precisión FP16.

Dependencia de recursos locales

Un aspecto notable de DeepSeek R2 es su dependencia casi total de los chips Huawei Ascend 910B para su entrenamiento, reafirmando el compromiso de la compañía con el uso de tecnologías locales. Esto representa un paso importante frente a sus competidores internacionales como OpenAI y Google, especialmente en tiempos de creciente tensión tecnológica global.

Cabe recordar que DeepSeek ya había lanzado en enero su modelo R1, también basado en los chips de Huawei, y que se caracterizó por tres pilares clave:

  • Rentabilidad
  • Código abierto
  • Eficiencia

Con R2, la empresa parece buscar consolidar su posición como líder en IA de bajo costo, alto rendimiento y acceso abierto, facilitando el uso de la inteligencia artificial a una gama más amplia de usuarios y empresas.

Información aún no confirmada

Es importante subrayar que, aunque estos detalles resultan muy prometedores, aún se tratan de rumores y no existe una confirmación oficial de DeepSeek al respecto. Por tanto, se recomienda tomar esta información con cautela mientras se esperan anuncios oficiales.