Google continúa avanzando en inteligencia artificial con el lanzamiento de Gemini Embedding 2, su primer modelo de embeddings multimodal nativo, capaz de procesar texto, imágenes, video, audio y documentos en un solo espacio de representación. Este nuevo desarrollo llega junto con nuevas funciones de IA para sus aplicaciones de Workspace.
¿Qué son los modelos de embeddings?
A diferencia de los modelos generativos, como Gemini 3, los modelos de embeddings se utilizan principalmente para “entender” la información. Su función es convertir diferentes tipos de datos —texto, imágenes, videos o audio— en un formato matemático llamado vectores, que las máquinas pueden analizar fácilmente. Gracias a esto, es posible realizar búsquedas semánticas, clasificación y agrupamiento de datos de manera más precisa que con los métodos tradicionales basados en palabras clave.
El primer modelo de Google estaba limitado únicamente al texto. Con Gemini Embedding 2, se logra un gran avance: ahora es posible mapear múltiples tipos de datos y capturar la intención semántica en más de 100 idiomas.
Capacidades de Gemini Embedding 2
Google ha definido los límites de entrada para cada modalidad de datos en este modelo:
- Texto: hasta 8192 tokens por solicitud.
- Imágenes: hasta seis imágenes por solicitud, soportando formatos PNG y JPEG.
- Videos: hasta 120 segundos en formato MP4 o MOV.
- Audio: puede procesar audio directamente, sin necesidad de transcripciones intermedias.
- Documentos: PDFs de hasta seis páginas.
Aplicaciones y beneficios
Según Google, Gemini Embedding 2 simplifica pipelines complejos y mejora múltiples tareas multimodales, desde Retrieval-Augmented Generation (RAG) y búsquedas semánticas hasta análisis de sentimiento y clustering de datos. El modelo puede analizar relaciones complejas entre distintos tipos de medios al procesar varias modalidades en una sola solicitud, como combinar texto con imágenes.
Un ejemplo de aplicación práctica es en el ámbito legal: los embeddings de Gemini permiten a los profesionales del derecho encontrar información crítica durante el proceso de discovery en litigios. Las pruebas muestran que el modelo mejora la precisión y el recall en millones de registros, además de optimizar la búsqueda de imágenes y videos.
Disponibilidad
Gemini Embeddings 2 (gemini-embedding-2-preview) ya está disponible en vista previa pública a través de la Gemini API y Vertex AI. Mientras tanto, el modelo anterior, gemini-embedding-001, sigue disponible para casos de uso exclusivamente de texto.
Con Gemini Embedding 2, Google da un paso más hacia la integración de la IA multimodal, ofreciendo herramientas más poderosas para comprender y organizar información de manera eficiente, sin importar el formato de los datos.
