Esta semana, OpenAI presentó gpt-oss, su esperado modelo de peso abierto que ahora cualquiera puede ejecutar de forma local, incluso en Macs con Apple Silicon. La propuesta es clara: llevar la potencia de un modelo de lenguaje grande a tu propio hardware, sin depender de la nube.
Dos versiones: gpt-oss-20b y gpt-oss-120b
gpt-oss llega en dos variantes:
- gpt-oss-20b: un modelo “medio” pensado para poder ejecutarse en Macs de gama alta con suficiente memoria.
- gpt-oss-120b: un modelo “pesado” que, aunque más preciso y menos propenso a alucinaciones, requiere recursos significativamente mayores.
La diferencia principal radica en la cantidad de datos y parámetros. El modelo más pequeño será más rápido y accesible, pero también más propenso a errores o respuestas inventadas. Aun así, es una herramienta interesante para experimentar si tienes curiosidad por correr modelos de lenguaje grandes de forma local.
Qué esperar al usarlo en Mac
Ejecutar gpt-oss localmente no es igual que usar ChatGPT. Al no estar conectado a internet ni tener acceso a resultados web, el modelo no cuenta con ciertas funciones modernas que ayudan a reducir errores.
Requisitos recomendados:
- Mínimo: 16 GB de RAM (solo para pruebas básicas).
- Óptimo: más de 16 GB de RAM para un uso fluido.
De hecho, uno de los motivos por los que Apple dejó de vender Macs con 8 GB de RAM es la creciente demanda de recursos que requieren aplicaciones de IA.
Guía rápida de instalación en macOS
- Instala Ollama, la aplicación que servirá como interfaz para gpt-oss-20b.
Puedes descargarla desde ollama.com/download. - Abre Terminal y ejecuta: bashCopiar
ollama pull gpt-oss:20b ollama run gpt-oss:20b
Esto descargará el modelo (unos 15 GB de almacenamiento). - Inicia Ollama y selecciona gpt-oss-20b como modelo activo.
Si quieres asegurarte de que todo ocurre localmente, activa el modo avión en la configuración. No se necesita iniciar sesión. - Prueba el modelo escribiendo cualquier prompt. Ten en cuenta que el rendimiento dependerá directamente de la capacidad de tu Mac. Durante el procesamiento, el sistema puede volverse más lento.
Rendimiento real en pruebas
En un MacBook Air M4 de 15” con 16 GB de RAM, las respuestas fueron extremadamente lentas:
- “hello” → unos 5 minutos de espera.
- “quién fue el 13º presidente” → alrededor de 43 minutos.
Por eso, si planeas experimentar en serio, es muy recomendable contar con más memoria.
Cómo desinstalar el modelo
Si decides liberar espacio en disco, puedes eliminarlo con:
ollama rm gpt-oss:20b
Alternativas
Además de Ollama, existe LM Studio, otra aplicación para macOS que permite trabajar con modelos de IA locales.