Google ha dado un paso decisivo hacia la robótica avanzada con la presentación de Gemini Robotics-ER 1.5 y Gemini Robotics 1.5, dos modelos de inteligencia artificial que trabajan en conjunto como un verdadero «cerebro y manos» para los robots. La compañía detalló las novedades en una reciente publicación oficial, donde explicó que estos sistemas representan la evolución más ambiciosa de su proyecto Gemini, diseñado para integrar el razonamiento, la percepción visual y la acción física en una sola arquitectura.
Dos modelos, una misión: unir la mente y el cuerpo de los robots
Las nuevas versiones se dividen en dos componentes complementarios:
- Gemini Robotics-ER 1.5 (Embodied Reasoning Model): actúa como el “cerebro” del sistema. Su función principal es planificar misiones complejas, hacer inferencias lógicas en entornos físicos y utilizar herramientas digitales, incluyendo Google Search, para recopilar información contextual antes de ejecutar una tarea. Este modelo es capaz de dividir tareas complejas en instrucciones paso a paso, generando estrategias similares a las de un ser humano.
- Gemini Robotics 1.5 (Vision-Language-Action Model): representa las “manos y ojos” del robot. Este modelo interpreta lo que ve mediante datos visuales y de lenguaje, y traduce esas percepciones en acciones motoras precisas. Es capaz de razonar antes de actuar, mostrando un proceso de pensamiento transparente y justificado en cada movimiento.
En conjunto, ambos modelos crean un ecosistema donde los robots entienden su entorno, buscan información relevante y actúan con base en un razonamiento lógico, marcando un antes y un después en la inteligencia artificial aplicada a la robótica.
Inteligencia encarnada y razonamiento consciente
Una de las mayores innovaciones del Robotics-ER 1.5 es su rendimiento en 15 benchmarks académicos de razonamiento espacial y cognitivo, donde ha alcanzado resultados state-of-the-art (SOTA). En la práctica, esto significa que el robot no solo ejecuta órdenes, sino que comprende el contexto de sus acciones.
Por ejemplo, si se le pide clasificar la basura, el sistema primero consulta las normas locales de reciclaje mediante una búsqueda en línea, las compara con lo que ve en su entorno y luego diseña una secuencia óptima de pasos para cumplir la tarea.
Mientras tanto, Robotics 1.5 se encarga de la ejecución física: desde colocar un vaso de papel en el contenedor adecuado hasta trazar la trayectoria exacta de su brazo manipulador. Además, puede explicar sus decisiones, descomponiendo misiones largas en subtareas más simples, lo que Google denomina “planificación consciente”.
Aprendizaje cruzado entre plataformas robóticas
Otro avance clave es la capacidad de transferir habilidades entre distintos cuerpos robóticos. Movimientos aprendidos en el sistema ALOHA 2 pueden aplicarse sin modificaciones a robots de diferentes configuraciones, como el humanoide Apptronik Apollo o el robot de dos brazos Franka.
Esto representa un hito en la industria: reduce significativamente el tiempo y los costos de entrenamiento, y acelera la adopción de nuevas plataformas. En otras palabras, un robot que aprende a manipular objetos en un laboratorio podrá aplicar las mismas destrezas en un entorno de fábrica o servicio sin reprogramaciones extensas.
Seguridad y responsabilidad: la prioridad de Google
Google subraya que el desarrollo de estos sistemas está guiado por un enfoque de IA responsable y segura.
Desde un nivel conceptual, los modelos aplican la filosofía “think-safe-before-act” (piensa seguro antes de actuar), que garantiza que las decisiones del robot estén alineadas con las políticas de seguridad de Gemini.
En el plano técnico, los robots incorporan subsistemas de evasión de colisiones y un marco de evaluación llamado ASIMOV, que mide la seguridad semántica del comportamiento. Este marco ha sido actualizado para incluir casos raros, nuevos tipos de preguntas y modalidades de video, permitiendo que Robotics-ER 1.5 alcance resultados sobresalientes en safety benchmarks.
Disponibilidad y aplicaciones reales
A partir de hoy, Gemini Robotics-ER 1.5 está disponible para desarrolladores a través de la API de Gemini en Google AI Studio, mientras que Gemini Robotics 1.5 se encuentra en fase de implementación con socios seleccionados, aunque Google promete expandir el acceso próximamente.
Ambos modelos se basan en las capacidades multimodales de Gemini, que desde principios de año ha sido implementado en escenarios físicos para demostrar cómo los agentes de IA pueden comprender instrucciones, interpretar videos y reconocer relaciones espaciales.
La versión 1.5 lleva este concepto más allá, añadiendo razonamiento paso a paso, planificación de misiones, invocación de herramientas digitales y portabilidad de habilidades entre robots distintos, algo que los sistemas convencionales —limitados a obedecer comandos directos— no podían ofrecer.
Un paso hacia los asistentes robóticos universales
Con estos avances, Google se perfila como líder en el desarrollo de robots inteligentes y adaptativos que pueden operar en industrias tan diversas como la logística, manufactura, investigación científica, atención al cliente y tareas domésticas.
El objetivo final de la compañía es crear asistentes robóticos universales, capaces de razonar, aprender y actuar con sentido común, una visión que acerca cada vez más la robótica a la vida cotidiana.
En paralelo, Google continúa expandiendo su ecosistema Gemini a otros dispositivos: recientemente, la compañía integró su IA conversacional en televisores con Google TV, comenzando con los modelos TCL QM9K, con planes de ampliar la compatibilidad durante el año.
Con Gemini Robotics 1.5 y Robotics-ER 1.5, Google no solo presenta una innovación tecnológica, sino un nuevo paradigma en la relación entre inteligencia artificial y robótica, donde los robots dejan de ser simples ejecutores para convertirse en entidades que piensan, planifican y aprenden del mundo que los rodea.