xAI presenta Grok-4-Fast: el nuevo modelo de alto rendimiento y bajo costo que redefine la eficiencia en IA

xAI, la compañía de inteligencia artificial fundada por Elon Musk, ha lanzado oficialmente Grok-4-Fast, una versión optimizada en costo y rendimiento de su modelo insignia Grok-4. Esta nueva iteración busca ofrecer la misma capacidad de razonamiento y comprensión, pero con menor latencia, menor consumo de tokens y un precio mucho más competitivo, marcando un nuevo estándar para aplicaciones de búsqueda, codificación y agentes conversacionales en tiempo real.

Un modelo unificado con control por prompts

A diferencia de versiones anteriores, que separaban los comportamientos “razonadores” y “no razonadores” en modelos distintos, Grok-4-Fast unifica ambos tipos en un solo conjunto de pesos, capaz de cambiar de modo a través de system prompts. Esta arquitectura reduce significativamente los tiempos de respuesta y el consumo de recursos, lo que la hace ideal para tareas interactivas como búsqueda en línea, soporte conversacional o programación asistida.

El modelo también ofrece un amplio contexto de 2 millones de tokens, lo que permite manejar documentos extensos, análisis complejos y múltiples instrucciones sin necesidad de segmentar la conversación o el código.

Entrenamiento con aprendizaje por refuerzo de uso de herramientas

Grok-4-Fast fue entrenado con una estrategia avanzada de aprendizaje por refuerzo (RL) enfocada en el uso de herramientas (tool-use RL). Esto le permite decidir de forma autónoma cuándo debe navegar por la web, ejecutar código o invocar herramientas externas, optimizando así la precisión y la eficiencia de cada tarea.

Los resultados en benchmarks de agentes de búsqueda son notables:

BrowseComp: 44.9%
SimpleQA: 95.0%
Reka Research: 66.0%
BrowseComp-zh (versión china): 51.2%

Además, en pruebas privadas en LMArena, el modelo grok-4-fast-search (nombre en clave menlo) alcanzó el puesto #1 en el ranking de búsqueda, mientras que la versión de texto (tahoe) se ubicó en el puesto #8, comparable con el rendimiento de Grok-4-0709.

Rendimiento y eficiencia: menos tokens, misma inteligencia

Uno de los puntos más destacados de Grok-4-Fast es su eficiencia en el uso de tokens. Según xAI, el modelo utiliza aproximadamente 40% menos “tokens de pensamiento” que Grok-4, manteniendo prácticamente el mismo nivel de precisión en pruebas avanzadas:

AIME 2025: 92.0%
HMMT 2025: 93.3%
GPQA Diamond: 85.7%
LiveCodeBench (ene–may): 80.0%

xAI define esta mejora como un aumento en la “densidad de inteligencia”, es decir, más razonamiento con menos texto. Al combinar la reducción de tokens con el nuevo esquema de precios por token, la compañía afirma una reducción de hasta 98% en el costo total para lograr el mismo rendimiento que Grok-4.

Disponibilidad y precios

Grok-4-Fast ya está disponible para todos los usuarios de Grok, tanto en la web como en la aplicación móvil, bajo los modos Fast y Auto. Este último seleccionará automáticamente Grok-4-Fast en consultas complejas para ofrecer menor latencia sin pérdida de calidad. Por primera vez, los usuarios gratuitos también podrán acceder al modelo más reciente de xAI.

Para desarrolladores, xAI ofrece dos versiones de API:

grok-4-fast-reasoning
grok-4-fast-non-reasoning

Ambas con una ventana de contexto de 2 millones de tokens. Los precios en la xAI API son:

$0.20 / 1M tokens de entrada (<128k)
$0.40 / 1M tokens de entrada (≥128k)
$0.50 / 1M tokens de salida (<128k)
$1.00 / 1M tokens de salida (≥128k)
$0.05 / 1M tokens de entrada en caché

Velocidad, inteligencia y ahorro

Con Grok-4-Fast, xAI da un paso importante hacia modelos más eficientes, accesibles y flexibles, capaces de adaptarse a diferentes contextos con un solo conjunto de pesos y una ventana de contexto masiva. La combinación de mayor densidad de inteligencia, aprendizaje autónomo de herramientas y precios altamente competitivos convierte a Grok-4-Fast en una opción poderosa para desarrolladores, empresas y usuarios que buscan máxima capacidad con menor costo operativo.

xAI presenta Grok-4-Fast: el nuevo modelo de alto rendimiento y bajo costo que redefine la eficiencia en IA

Un modelo unificado con control por prompts

Entrenamiento con aprendizaje por refuerzo de uso de herramientas

Rendimiento y eficiencia: menos tokens, misma inteligencia

Disponibilidad y precios

Velocidad, inteligencia y ahorro

Related posts:

India da un paso firme contra el mal uso de la IA con las Reglas de Enmienda IT 2026

CX Day Costa Rica 2025: Un Evento que Transformó la Experiencia del Cliente y del Colaborador

ChatGPT y la tendencia viral: ¿Puede la inteligencia artificial “sentir” cómo la tratamos?