En un momento histórico donde la inteligencia artificial promete transformar radicalmente el mercado laboral, surge una pregunta fundamental: ¿cómo podemos medir realmente las capacidades de los modelos de IA en tareas económicamente valiosas? Un equipo de investigadores de OpenAI ha presentado GDPval, un innovador benchmark que evalúa el desempeño de los modelos de IA en tareas del mundo real que contribuyen directamente al Producto Interno Bruto (PIB) de Estados Unidos.
A diferencia de las evaluaciones tradicionales que se centran en pruebas académicas o razonamiento abstracto, GDPval representa un cambio paradigmático al medir cómo los modelos de IA se desempeñan en el trabajo real que realizan profesionales con un promedio de 14 años de experiencia en sus campos.
La Necesidad de un Nuevo Tipo de Evaluación
El debate sobre cómo la IA afectará la economía se ha centrado tradicionalmente en indicadores retrospectivos: tasas de adopción, patrones de uso y crecimiento del PIB atribuible a la IA. Sin embargo, la evidencia histórica de otras revoluciones tecnológicas —desde la electricidad hasta las computadoras— demuestra que la transición desde la invención hasta la penetración económica generalizada puede tomar años o incluso décadas.
GDPval propone un enfoque alternativo: medir directamente las capacidades de los modelos de IA en tareas económicamente relevantes. Esta metodología permite evaluar el impacto económico potencial antes de la adopción generalizada, proporcionando una ventana anticipada hacia el futuro del trabajo.
Cobertura Sectorial y Ocupacional
El benchmark cubre las principales fuerzas económicas de Estados Unidos de manera sistemática. Los investigadores seleccionaron los 9 sectores que contribuyen más del 5% al PIB estadounidense, desde Bienes Raíces y Arrendamiento (13.8% del PIB) hasta Información (5.4%). Dentro de cada sector, identificaron las cinco ocupaciones con mayor contribución a salarios y compensaciones totales, enfocándose específicamente en trabajo de conocimiento predominantemente digital.
En total, GDPval abarca 44 ocupaciones que colectivamente generan $3 billones de dólares anuales. Estas ocupaciones incluyen desarrolladores de software, abogados, contadores, gerentes de sistemas de información, enfermeras registradas, asesores financieros, editores, productores cinematográficos y agentes de bienes raíces, entre muchos otros.
La selección de ocupaciones no fue arbitraria. Los investigadores utilizaron una metodología rigurosa basada en datos de O*NET, una base de datos ocupacional del Departamento de Trabajo de EE.UU. Clasificaron cada tarea como digital o no digital usando GPT-4o, y solo incluyeron ocupaciones donde al menos el 60% de las tareas componentes eran digitales, ponderadas por relevancia, importancia y frecuencia.
Construcción de Tareas Realistas
Lo que distingue verdaderamente a GDPval es su enfoque en el realismo. Cada una de las 1,320 tareas del conjunto completo se basa en trabajo real producido por profesionales expertos de la industria. Los expertos fueron cuidadosamente seleccionados, requiriendo un mínimo de 4 años de experiencia profesional, un historial demostrado de reconocimiento profesional y pasar entrevistas en video, verificaciones de antecedentes y exámenes de capacitación.
La lista de empleadores anteriores de estos expertos lee como un directorio de las empresas más prestigiosas del mundo: Google, Microsoft, Goldman Sachs, JPMorgan Chase, Meta, Boeing, Lockheed Martin, HBO, Disney, la BBC, el Departamento de Defensa de EE.UU., y muchos otros.
Cada tarea en GDPval consiste en dos componentes principales: una solicitud (a menudo con archivos de referencia) y un entregable (producto de trabajo). Los expertos clasificaron sus solicitudes contra las tareas ocupacionales de O*NET para garantizar una cobertura amplia y representativa. Las tareas requieren un promedio de 7 horas de trabajo para que un profesional experto las complete, con algunas tareas extendiéndose hasta varias semanas.
Multimodalidad y Complejidad
A diferencia de muchas evaluaciones que dependen de formatos de texto simple, GDPval requiere manipular una amplia variedad de formatos: archivos de diseño CAD, fotografías, video, audio, publicaciones en redes sociales, diagramas, presentaciones de diapositivas, hojas de cálculo y conversaciones de soporte al cliente. Cada tarea también requiere analizar hasta 17 archivos de referencia en el subconjunto dorado, y 38 en el conjunto completo.
El valor económico de cada tarea se estimó multiplicando el tiempo promedio de finalización por los salarios horarios medianos para la ocupación correspondiente según datos de la Oficina de Estadísticas Laborales de EE.UU. El valor promedio de una tarea en el subconjunto dorado es de $398.46 dólares, con tareas que van desde $12.59 hasta más de $4,000 dólares.
Control de Calidad Riguroso
Para garantizar la calidad y el realismo, todas las tareas pasaron por un riguroso proceso de revisión iterativa. Cada tarea recibió un promedio de cinco revisiones humanas (con un mínimo de tres). El proceso incluyó:
- Revisión automatizada inicial: Modelos de OpenAI examinaron automáticamente cada envío de tarea según diversos criterios, marcando posibles errores u omisiones.
- Revisión generalista inicial: Un revisor generalista confirmó que la tarea cumplía con los requisitos del proyecto.
- Revisión de expertos específicos de la ocupación: Un revisor específico de la ocupación evaluó la representatividad de la tarea y confirmó que otro miembro de la ocupación pudiera completarla con el contexto proporcionado.
- Ciclo final de retroalimentación iterativa: Un tercer revisor experto proporcionó retroalimentación iterativa y trabajó con los expertos hasta que la tarea cumplió con estándares rigurosos de calidad.
Resultados Sorprendentes: Los Modelos se Acercan a la Paridad con Expertos
Los hallazgos de GDPval son reveladores. Al evaluar modelos de frontera como GPT-4o, o4-mini, o3, GPT-5, Claude Opus 4.1, Gemini 2.5 Pro y Grok 4 mediante comparaciones pareadas ciegas por expertos profesionales de la industria, los investigadores encontraron que los modelos están comenzando a alcanzar la paridad con expertos humanos.
Claude Opus 4.1 fue el modelo de mejor desempeño en el subconjunto dorado de GDPval, destacándose particularmente en estética (formato de documentos, diseño de diapositivas), mientras que GPT-5 sobresalió en precisión (seguir cuidadosamente las instrucciones, realizar cálculos correctos). En el subconjunto dorado, el 47.6% de los entregables de Claude Opus 4.1 fueron calificados como mejores o tan buenos como el entregable humano.
El análisis revela que el rendimiento del modelo de frontera de OpenAI en GDPval ha mejorado aproximadamente de manera lineal con el tiempo, una tendencia que tiene implicaciones significativas para proyectar capacidades futuras.
Análisis de Velocidad y Costo
Uno de los aspectos más pragmáticos del estudio analizó varios escenarios para comprender los posibles ahorros de tiempo y costo de los modelos de frontera. Los investigadores consideraron diferentes configuraciones:
- Ratio ingenuo: Simplemente dividiendo el tiempo de finalización humana por el tiempo de muestreo del modelo.
- Intentar una vez, luego arreglarlo: Un experto humano muestrea del modelo, revisa los resultados y, si no son satisfactorios, completa la tarea él mismo.
- Intentar n veces, luego arreglarlo: El humano intenta múltiples rondas de usar el modelo antes de intervenir.
En todos los escenarios analizados, incorporar modelos de IA de frontera en los flujos de trabajo de expertos mostró el potencial de ahorrar tiempo y dinero en relación con expertos sin ayuda. Por ejemplo, bajo una configuración de “intentar usar el modelo y si todavía no es satisfactorio, arreglarlo tú mismo”, los modelos pueden ahorrar potencialmente tiempo y dinero al experto.
Fortalezas y Debilidades del Modelo
Un análisis detallado de por qué los expertos prefirieron o rechazaron los entregables del modelo reveló patrones claros. Claude, Grok y Gemini perdieron con mayor frecuencia debido a fallas en el seguimiento de instrucciones, mientras que GPT-5 perdió principalmente por errores de formato y tuvo los problemas de seguimiento de instrucciones más reducidos.
Los modelos a veces prometieron pero no proporcionaron entregables, ignoraron datos de referencia o usaron el formato incorrecto. GPT-5 y Grok mostraron los errores de precisión más reducidos, aunque todos los modelos a veces alucinaron datos o calcularon incorrectamente.
El Impacto del Esfuerzo de Razonamiento
Un descubrimiento importante fue que el esfuerzo de razonamiento adicional mejoró el rendimiento. Los investigadores ejecutaron GDPval en los modelos o3 y GPT-5 con esfuerzo de razonamiento bajo, medio y alto, encontrando mejoras consistentes con mayor esfuerzo.
También demostraron que el ajuste de prompts y el andamiaje mejorado pueden generar ganancias fáciles de rendimiento. Un prompt diseñado para alentar a GPT-5 a verificar rigurosamente los entregables eliminó completamente artefactos de cuadrados negros de las respuestas de GPT-5 y redujo errores de formato atroces en archivos de PowerPoint del 86% al 64%.
Calificación Automatizada: Un Desafío Persistente
Dada la complejidad de calificar automáticamente estas tareas, la métrica de evaluación principal es la comparación experta humana directa. Sin embargo, los investigadores también desarrollaron un servicio experimental de calificador automatizado para el subconjunto dorado de 220 tareas de código abierto.
El calificador automatizado, basado en GPT-5-high, alcanzó un 66% de acuerdo con calificadores expertos humanos, solo un 5% por debajo del acuerdo de calificación inter-rater humano del 71%. Aunque limitado, el calificador automatizado es más rápido y más barato que la calificación experta.
Limitaciones y Futuras Direcciones
Los investigadores son transparentes sobre las limitaciones de GDPval. El conjunto completo actualmente consiste en solo 44 ocupaciones y 30 tareas totales por ocupación, representando un corte inicial limitado de tareas de trabajo de conocimiento. Las tareas están orientadas hacia el trabajo de conocimiento que puede realizarse en una computadora, excluyendo el trabajo manual y las tareas físicas.
Además, las tareas están especificadas con precisión y son de una sola vez, no interactivas. En la vida real, a menudo requiere esfuerzo descubrir el contexto completo de una tarea. Los investigadores están trabajando en mejoras que involucren más interactividad y realismo contextual.
GDPval representa un avance significativo en cómo medimos y comprendemos las capacidades de la IA en contextos económicamente relevantes. Al anclar la evaluación en trabajo real de profesionales experimentados a través de sectores que representan la mayor parte del PIB estadounidense, el benchmark proporciona una ventana única hacia el futuro potencial del trabajo.
Los hallazgos sugieren que los modelos de frontera están acercándose rápidamente a la paridad con expertos humanos en muchas tareas de trabajo de conocimiento, con implicaciones profundas para la productividad, el diseño del trabajo y la economía en general. Al mismo tiempo, el análisis detallado de las fortalezas y debilidades del modelo proporciona una hoja de ruta para mejoras continuas.
Quizás lo más importante es que GDPval demuestra que es posible medir de manera rigurosa y sistemática el impacto económico potencial de la IA antes de la adopción generalizada, proporcionando a los formuladores de políticas, líderes empresariales e investigadores los datos necesarios para navegar la revolución de la IA de manera reflexiva y responsable.
Con 220 tareas de código abierto y un servicio de calificación automatizada disponible públicamente en evals.openai.com, GDPval no solo establece un nuevo estándar para la evaluación de capacidades de IA, sino que también democratiza el acceso a herramientas para comprender el progreso del modelo, contribuyendo a la ciencia de rastrear el avance de la IA y evaluar sus impactos sociales.