DeepSeek V4 llegará en julio con nuevos precios para su API y una velocidad de inferencia hasta un 85% más rápida

DeepSeek continúa acelerando el desarrollo de su ecosistema de inteligencia artificial con dos frentes de trabajo paralelos: la evolución de sus modelos comerciales y el avance de sus tecnologías de código abierto. La compañía confirmó que la versión oficial de DeepSeek V4 llegará a mediados de julio e introducirá un nuevo sistema de precios para su API basado en horarios de alta y baja demanda. Al mismo tiempo, anunció el despliegue completo de DSpark, un framework de aceleración de inferencia desarrollado junto con la Universidad de Pekín, capaz de aumentar la velocidad de generación entre un 57% y un 85%.

Estas novedades reflejan la estrategia de DeepSeek para mejorar el rendimiento de sus modelos mientras optimiza el uso de su infraestructura y fortalece su presencia en el mercado empresarial.

DeepSeek V4 estrenará un sistema de precios por horarios

Según anunció la compañía el 29 de junio, la versión oficial de DeepSeek V4 incorporará un mecanismo de precios diferenciados según la demanda de su API.

El esquema divide el día en dos franjas:

Horario pico: de 9:00 a.m. a 12:00 p.m. y de 2:00 p.m. a 6:00 p.m.
Horario valle: el resto del día.

Durante las horas de mayor demanda, el costo de la API será el doble del precio actual, mientras que en las horas valle las tarifas permanecerán sin cambios respecto a las vigentes para V4.

DeepSeek explica que este modelo permitirá distribuir mejor los recursos computacionales y ofrecer una mayor estabilidad del servicio, especialmente en momentos de alta carga.

Para empresas que utilizan intensivamente la API durante la jornada laboral, el cambio supondrá un incremento en los costos operativos. Sin embargo, aquellas que puedan programar tareas de procesamiento por lotes durante las horas de menor demanda podrán mantener prácticamente el mismo nivel de gasto.

Así son los modelos DeepSeek V4

La versión preliminar de DeepSeek V4 fue presentada el pasado 24 de abril y destacó por incorporar una ventana de contexto de hasta un millón de tokens, además de mejorar significativamente las capacidades de razonamiento, conocimiento general y ejecución de agentes inteligentes.

La familia V4 está compuesta por dos modelos principales:

DeepSeek V4-Pro

Es el modelo insignia de la compañía e incluye:

1,6 billones de parámetros totales.
49.000 millones de parámetros activos.
Entrenamiento con 33 billones de tokens.
Ventana de contexto de 1 millón de tokens.
Disponible en el modo Expert de la interfaz web.

DeepSeek V4-Flash

La versión ligera ofrece:

284.000 millones de parámetros.
13.000 millones de parámetros activos.
Entrenamiento con 32 billones de tokens.
Soporte para contexto de 1 millón de tokens.
Disponible en el modo Fast.

Ambos modelos ya se encuentran disponibles como proyectos de código abierto y pueden utilizarse mediante la API de DeepSeek.

DSpark acelera la inferencia hasta en un 85%

Junto con la futura llegada de V4, DeepSeek también presentó oficialmente DSpark, un framework de aceleración de inferencia desarrollado en colaboración con la Universidad de Pekín.

A diferencia de un nuevo modelo de lenguaje, DSpark actúa como una capa de optimización que mejora el rendimiento de los modelos existentes mediante una técnica denominada decodificación especulativa (speculative decoding).

El principio es sencillo: un modelo ligero genera rápidamente una serie de tokens candidatos, mientras que el modelo principal los verifica en paralelo. Cuando las predicciones coinciden, los resultados se aceptan inmediatamente, reduciendo el tiempo necesario para generar una respuesta sin afectar la calidad del contenido.

Tras su implementación en todos los servicios en línea de DeepSeek, las pruebas muestran mejoras significativas:

V4-Flash: incremento de velocidad entre un 60% y un 85%.
V4-Pro: mejora de entre 57% y 78%.

Estas cifras ya han sido validadas en el entorno de producción de la compañía.

Dos innovaciones para mejorar la decodificación especulativa

DSpark introduce dos avances técnicos diseñados para resolver algunos de los principales problemas de la decodificación especulativa.

Arquitectura semi-autoregresiva

El primer avance consiste en una arquitectura híbrida que combina una base paralela con un módulo secuencial ligero.

Esta solución busca corregir el denominado problema del deterioro del sufijo, una limitación habitual cuando múltiples tokens se generan en paralelo sin depender unos de otros. Conforme avanza la generación, los errores tienden a acumularse y disminuye la cantidad de predicciones válidas.

Al reintroducir dependencias entre tokens consecutivos, DSpark consigue aumentar la longitud efectiva de texto aceptado en cada ronda de verificación. Según DeepSeek, una configuración de solo dos capas supera incluso el rendimiento obtenido por DFlash, una solución completamente paralela de cinco capas.

Verificación inteligente basada en confianza

La segunda innovación consiste en un sistema de verificación adaptativa basado en puntuaciones de confianza.

DSpark incorpora un módulo capaz de estimar la probabilidad de que cada token propuesto sea aceptado por el modelo principal. Gracias a una técnica denominada Sequential Temperature Scaling, el margen de error de estas predicciones se reduce desde un rango del 3-8% hasta aproximadamente un 1%.

Con esta información, el sistema ajusta dinámicamente la longitud de las verificaciones según la carga del servidor:

Cuando la demanda es baja, aprovecha al máximo los recursos disponibles.
Cuando existe alta concurrencia, elimina de forma anticipada los tokens con menor probabilidad de éxito para evitar cuellos de botella y mantener un rendimiento estable.

Un equilibrio entre rendimiento y comercialización

La combinación del lanzamiento oficial de DeepSeek V4 con el despliegue de DSpark demuestra que la empresa está impulsando simultáneamente la evolución técnica de sus modelos y su estrategia comercial.

Mientras el nuevo sistema de precios permitirá administrar mejor la capacidad de cómputo de la plataforma, las mejoras en velocidad de inferencia ayudarán a compensar parte del incremento de costos para muchos desarrolladores y empresas, especialmente en aplicaciones con alta concurrencia.

Con esta actualización, DeepSeek busca consolidar una plataforma de IA más rápida, eficiente y preparada para soportar un mayor volumen de usuarios sin sacrificar el rendimiento.