OpenAI lanza modelos de razonamiento de IA de código abierto

OpenAI ha anunciado el lanzamiento de dos modelos de inteligencia artificial de código abierto con capacidades de razonamiento avanzadas, los cuales están disponibles para descarga gratuita a través de la plataforma de desarrollo Hugging Face. Estos nuevos modelos, llamados gpt-oss-120b y gpt-oss-20b, representan la primera iniciativa abierta de OpenAI desde el lanzamiento de GPT-2 en 2019.

Dos tamaños, una visión compartida

Los nuevos modelos vienen en dos versiones:

  • GPT-OSS-120B: El modelo más grande y potente, diseñado para ejecutarse en una sola GPU de Nvidia.
  • GPT-OSS-20B: Un modelo más ligero que puede funcionar en laptops de consumo con al menos 16 GB de memoria RAM.

Ambos modelos han sido descritos por OpenAI como “estado del arte” según benchmarks comparativos entre modelos abiertos, y están diseñados para tareas complejas de razonamiento, aunque sólo procesan texto (sin capacidades multimodales como imagen o audio).

Apertura estratégica frente a la competencia global

Este movimiento representa un giro estratégico de OpenAI, que hasta ahora había favorecido un enfoque cerrado y propietario para desarrollar y monetizar sus modelos mediante APIs. En palabras de Sam Altman, CEO de la empresa:

“Volver a nuestros orígenes en 2015 significa asegurarnos de que la AGI beneficie a toda la humanidad. Nos entusiasma que el mundo pueda construir sobre una pila de IA abierta, creada en Estados Unidos, basada en valores democráticos, disponible gratuitamente y para el beneficio amplio.”

El lanzamiento llega en un contexto donde laboratorios chinos como DeepSeek, Qwen (Alibaba) y Moonshot AI están ganando terreno con modelos abiertos altamente competitivos. Además, el gobierno de EE.UU. ha instado recientemente a las empresas tecnológicas a compartir más tecnologías de IA de forma abierta, lo que refuerza la intención de OpenAI de alinearse con estos objetivos geopolíticos.

Desempeño en benchmarks

OpenAI compartió detalles sobre el rendimiento de sus nuevos modelos en pruebas estándar:

  • Codeforces (con herramientas):
    • gpt-oss-120b: 2622 puntos
    • gpt-oss-20b: 2516 puntos
      Ambos superan al modelo R1 de DeepSeek, pero están por debajo de los modelos cerrados o3 y o4-mini de OpenAI.
  • Humanity’s Last Exam (HLE):
    • gpt-oss-120b: 19%
    • gpt-oss-20b: 17.3%
      De nuevo, superan a competidores abiertos como Qwen, pero no alcanzan el nivel de los modelos cerrados más avanzados.

Limitaciones y alucinaciones

Uno de los puntos críticos detectados es la alta tasa de alucinaciones (errores de generación de contenido ficticio o incorrecto). En el benchmark interno PersonQA, los resultados fueron:

  • gpt-oss-120b: 49% de respuestas alucinadas
  • gpt-oss-20b: 53%
  • Comparado con:
    • o1: 16%
    • o4-mini: 36%

OpenAI admite que este comportamiento es “esperado”, ya que los modelos más pequeños tienen menos conocimiento del mundo y tienden a alucinar más.

Detalles técnicos del entrenamiento

Los nuevos modelos fueron entrenados usando procesos similares a los de la serie o:

  • Mixture of Experts (MoE): Técnica que activa solo una fracción de los parámetros por token, aumentando la eficiencia. En gpt-oss-120b, se activan solo 5.1B de los 117B parámetros totales por token.
  • Reforzamiento con alto cómputo (High-Compute Reinforcement Learning): Técnica de aprendizaje posterior al entrenamiento que mejora las capacidades de razonamiento mediante entornos simulados.

Ambos modelos están optimizados para alimentar agentes de IA capaces de ejecutar herramientas como búsquedas web o código Python, aunque siguen siendo exclusivamente textuales.

Licencia y limitaciones en apertura

Los modelos se publican bajo licencia Apache 2.0, una de las más permisivas, permitiendo su uso comercial sin restricciones de licencia. No obstante, OpenAI no publicará los datos de entrenamiento, citando preocupaciones legales, dado que la empresa enfrenta demandas relacionadas con derechos de autor por el uso de contenido protegido para entrenar sus modelos.

Seguridad y evaluación de riesgos

Antes del lanzamiento, OpenAI retrasó varias veces la publicación para evaluar riesgos de seguridad. Según un informe técnico, el gpt-oss podría incrementar marginalmente capacidades en biología, pero no alcanza umbrales de peligro incluso tras fine-tuning. Además, se descartó que los modelos puedan facilitar ciberataques o creación de armas químicas o biológicas.

Perspectivas futuras

Aunque OpenAI ha dado un paso significativo en el ecosistema de IA abierta con estos lanzamientos, el panorama sigue evolucionando. Se espera con interés el lanzamiento del DeepSeek R2 y un nuevo modelo abierto del Superintelligence Lab de Meta, los cuales podrían cambiar nuevamente las reglas del juego.