Meta SAM Audio: inteligencia artificial abierta para separar sonidos con lenguaje natural

Meta continúa ampliando las fronteras de la inteligencia artificial aplicada a la creación de contenidos. Esta semana, la compañía anunció el lanzamiento de SAM Audio, una nueva incorporación a la familia Segment Anything Model (SAM), diseñada para identificar, separar y aislar sonidos individuales dentro de mezclas de audio complejas. Al igual que sus versiones para imágenes y video, el modelo adopta la filosofía de “segmentar cualquier cosa”, pero ahora trasladada al terreno del audio.

SAM Audio llega como un modelo open source, pensado para simplificar tareas que históricamente han requerido herramientas especializadas, conocimientos técnicos avanzados y muchas horas de trabajo manual. Con esta propuesta, Meta busca democratizar la edición de audio y acelerar flujos de trabajo tanto en entornos creativos como de investigación.

¿Qué es SAM Audio y por qué importa?

SAM Audio es un modelo único que permite extraer sonidos específicos de un clip de audio utilizando descripciones en lenguaje natural. En lugar de ajustar manualmente bandas de frecuencia o depender de presets rígidos, los usuarios pueden simplemente indicar qué sonido desean aislar —por ejemplo, “voz humana”, “música de fondo” o “niños hablando”— y dejar que la IA haga el resto.

Meta posiciona a SAM Audio como una solución para automatizar procesos de edición de audio que suelen ser lentos y técnicamente exigentes. Además, el modelo se publica bajo la licencia SAM, lo que permite su uso tanto en proyectos de investigación como en aplicaciones comerciales, un punto clave para su adopción a gran escala.

Cómo funciona SAM Audio

Una de las grandes fortalezas de SAM Audio es su flexibilidad a la hora de recibir instrucciones. El modelo admite tres tipos de prompts o métodos de interacción, lo que lo hace adaptable a distintos escenarios de uso.

El primero es el prompt de texto, donde el usuario escribe una descripción natural del sonido que desea extraer. El segundo es el prompt visual, pensado para contenidos audiovisuales: cuando el audio está asociado a un video, basta con hacer clic sobre una persona u objeto en la imagen y, si ese elemento produce sonido, el modelo lo aislará. Por último, el prompt por intervalo de tiempo permite seleccionar un tramo específico de la línea temporal; SAM Audio identifica y separa la fuente sonora activa en ese segmento.

En un ejemplo práctico, si un audio incluye a una persona hablando por teléfono, música de fondo y voces lejanas de niños, el modelo puede aislar cada uno de esos elementos de forma individual con una sola indicación.

Rendimiento y primeras impresiones

Según Meta, SAM Audio es rápido y eficiente en la separación de sonidos. En pruebas iniciales, como las realizadas por Gadgets 360, el modelo demostró una buena capacidad de respuesta y de adaptación a distintos cambios aplicados sobre el material de entrada, aunque todavía no ha sido probado a fondo en entornos de producción reales. Aun así, las primeras impresiones apuntan a un alto potencial para creadores, editores e investigadores.

Detalles técnicos bajo el capó

A nivel técnico, SAM Audio está construido como un modelo generativo de separación, capaz de extraer tanto el sonido objetivo como el audio residual restante de una mezcla. Utiliza un Diffusion Transformer con flow-matching y opera en el espacio de un Descript Audio Codec–Variational Autoencoder (DAC-VAE). Esta arquitectura le permite manejar escenas sonoras complejas con múltiples fuentes superpuestas.

Disponibilidad y acceso

SAM Audio ya se puede descargar desde el sitio web de Meta, así como desde GitHub y Hugging Face. Para quienes prefieren no ejecutar el modelo de forma local, también está disponible a través del Segment Anything Playground, una plataforma que reúne otros modelos de la familia SAM.

Un gran paso para la IA aplicada al audio

Con SAM Audio, Meta refuerza la idea de que la edición de audio debería ser tan intuitiva como señalar, hacer clic o simplemente describir lo que se busca. Al apostar por el código abierto y permitir su uso comercial, la compañía espera que desarrolladores y creadores construyan nuevas herramientas sobre esta base.

Si el modelo mantiene su rendimiento en flujos de trabajo reales, SAM Audio podría reducir de forma drástica las barreras de entrada a la edición de audio de alta calidad, replicando en el sonido la revolución que los modelos de segmentación ya han provocado en la imagen y el video.