Genie 3: el modelo base que impulsa la inteligencia artificial general

Google DeepMind ha revelado Genie 3, su modelo base más avanzado hasta la fecha, diseñado para entrenar agentes de inteligencia artificial (IA) de propósito general. Esta innovación se presenta como un paso crucial hacia la tan anhelada inteligencia general artificial (AGI, por sus siglas en inglés), es decir, una IA con capacidades similares a la inteligencia humana.

Un modelo interactivo de propósito general

Según Shlomi Fruchter, director de investigación en DeepMind, Genie 3 representa “el primer modelo de mundo interactivo en tiempo real y de propósito general”. A diferencia de versiones anteriores o modelos limitados a entornos específicos, Genie 3 es capaz de generar mundos tanto fotorrealistas como imaginarios, y todo lo que se encuentra entre ambos extremos.

Aunque aún se encuentra en etapa de vista previa de investigación y no está disponible públicamente, Genie 3 es un salto notable respecto a su predecesor, Genie 2, y al modelo de generación de video más reciente de DeepMind, Veo 3, que ya mostraba un entendimiento profundo de la física.

Características clave de Genie 3

  • Generación de entornos 3D interactivos a 720p y 24 fps, durante varios minutos a partir de simples instrucciones de texto. Genie 2 apenas podía alcanzar los 10–20 segundos.
  • Eventos del mundo impulsados por prompts: el usuario puede alterar el entorno generado con comandos específicos.
  • Consistencia física en las simulaciones gracias a la memoria interna del modelo, que le permite recordar lo previamente generado y anticipar lo que debe ocurrir a continuación, sin necesidad de un motor físico codificado manualmente.

Este enfoque auto-regresivo, en el que se genera un fotograma a la vez, permite que el modelo razone en horizontes temporales largos, desarrollando una comprensión intuitiva de cómo se comportan los objetos en el mundo real.

Aplicaciones y potencial en el entrenamiento de agentes

Fruchter destacó que Genie 3 puede ser revolucionario para ámbitos como la educación, los videojuegos o la creación de prototipos creativos. Sin embargo, su verdadero potencial radica en entrenar agentes inteligentes para tareas de propósito general, un componente considerado esencial para lograr la AGI.

Jack Parker-Holder, científico de investigación en el equipo de “open-endedness” de DeepMind, enfatizó:

“Creemos que los modelos de mundo son claves en el camino hacia la AGI, especialmente para agentes encarnados (embodied agents), donde simular escenarios reales es un desafío complejo”.

Genie 3 fue puesto a prueba con el agente SIMA (Scalable Instructable Multiworld Agent), al que se le asignaron objetivos simples en un entorno de almacén, como “acércate al compactador de basura verde brillante”. En todos los casos, SIMA logró completar las tareas gracias a la fidelidad del mundo generado por Genie 3.

Limitaciones actuales

A pesar de sus avances, Genie 3 todavía enfrenta ciertos desafíos:

  • Simulaciones físicas imperfectas: por ejemplo, el comportamiento de la nieve en un demo de esquí no fue realista.
  • Acciones del agente limitadas: los eventos del mundo pueden modificarse con instrucciones, pero no siempre se reflejan como acciones ejecutadas por el agente.
  • Duración limitada: solo puede mantener interacciones continuas por unos minutos, cuando se necesitarían horas para un entrenamiento eficaz.
  • Interacciones complejas entre múltiples agentes aún representan una barrera técnica importante.

Hacia un aprendizaje encarnado y auto-dirigido

A pesar de sus restricciones, Genie 3 sienta las bases para agentes que puedan planear, explorar, aprender de la incertidumbre y mejorar mediante prueba y error, simulando así un aprendizaje más cercano al humano.

“Aún no hemos tenido un momento ‘Move 37’ para agentes encarnados,” dijo Parker-Holder, en referencia a la jugada innovadora de AlphaGo contra el campeón mundial Lee Sedol en 2016, que simbolizó el potencial creativo de la IA.

Genie 3 apunta a ser ese punto de inflexión para los sistemas que deben aprender del mundo mediante experiencias virtuales, cerrando la brecha entre simulación y realidad.