NVIDIA Research ha presentado PersonaPlex-7B-v1, un modelo conversacional de voz a voz en full dúplex que marca un antes y un después en la interacción natural entre humanos y asistentes de inteligencia artificial. A diferencia de los asistentes tradicionales, PersonaPlex permite hablar y escuchar al mismo tiempo, manejar interrupciones, solapamientos y ofrecer respuestas con una identidad vocal y de rol altamente controlada.
Del modelo en cascada a un único sistema full dúplex
Los asistentes de voz convencionales funcionan mediante una cadena de procesos: Reconocimiento Automático de Voz (ASR) para convertir audio en texto, un modelo de lenguaje (LLM) para generar la respuesta y Text-to-Speech (TTS) para devolverla en audio. Este enfoque introduce latencia en cada etapa y limita la naturalidad de la conversación, impidiendo interrupciones fluidas o retroalimentaciones breves como “ajá” o “entiendo”.
PersonaPlex reemplaza esta arquitectura por un único modelo Transformer full dúplex, capaz de comprender y generar voz de forma simultánea. El sistema trabaja directamente con audio continuo codificado mediante un códec neuronal y predice tanto tokens de texto como de audio de manera autorregresiva. Gracias a esto, el modelo puede escuchar mientras habla, adaptarse en tiempo real si el usuario interrumpe y mantener un ritmo conversacional mucho más humano.
Doble flujo inspirado en Moshi
El diseño de PersonaPlex utiliza una configuración de doble stream: un flujo sigue el audio del usuario y otro gestiona el habla y el texto del agente. Ambos comparten el mismo estado interno del modelo, lo que permite ajustes dinámicos durante la interacción. Esta arquitectura está directamente inspirada en el framework Moshi full dúplex, desarrollado por Kyutai, y representa uno de los pilares técnicos del proyecto.
Control preciso de personalidad y voz con prompting híbrido
Uno de los avances más llamativos de PersonaPlex es su sistema de control de persona, basado en prompting híbrido:
- Voice prompt: una secuencia de tokens de audio que define características vocales como timbre, estilo de habla y prosodia.
- Text prompt: describe el rol, contexto, antecedentes y escenario del agente.
- System prompt: añade campos estructurados como nombre del agente, nombre del negocio o reglas operativas, con un límite de hasta 200 tokens.
La combinación de estos elementos permite al modelo mantener coherencia tanto en el contenido lingüístico como en el comportamiento acústico, con voces predefinidas como las familias NATF y NATM listas para usar.
Arquitectura: Helium, Mimi y audio a 24 kHz
PersonaPlex-7B-v1 cuenta con 7 mil millones de parámetros y se apoya en Helium como modelo base de lenguaje, lo que le otorga una comprensión semántica sólida y capacidad de generalización fuera de escenarios estrictamente entrenados.
El audio es procesado mediante el códec Mimi, que combina capas ConvNet y Transformer tanto en el encoder como en el decoder. El sistema trabaja con una frecuencia de muestreo de 24 kHz en entrada y salida, ofreciendo una calidad de voz notablemente natural.
Un ejemplo destacado es el escenario de “emergencia espacial”, donde el modelo responde de forma técnica y emocionalmente adecuada a una falla en un reactor durante una misión a Marte, a pesar de no ser un caso presente en los datos de entrenamiento.
Entrenamiento: conversaciones reales y roles sintéticos
El entrenamiento de PersonaPlex se realizó en una sola etapa, combinando datos reales y sintéticos:
- Datos reales: 7,303 conversaciones (aprox. 1,217 horas) del Fisher English corpus, enriquecidas con anotaciones generadas por GPT-OSS-120B. Estas conversaciones aportan interrupciones naturales, pausas, muletillas y patrones emocionales difíciles de recrear solo con TTS.
- Datos sintéticos:
- 39,322 diálogos de asistentes (410 horas).
- 105,410 conversaciones de atención al cliente (1,840 horas).
Los textos fueron generados con Qwen3-32B y GPT-OSS-120B, y convertidos a audio con Chatterbox TTS. Este enfoque permite separar la naturalidad conversacional (principalmente de Fisher) de la adhesión a tareas y reglas de rol, proveniente de los escenarios sintéticos.
Evaluación y resultados
PersonaPlex fue evaluado en FullDuplexBench, un benchmark especializado en diálogos hablados full dúplex, y en ServiceDuplexBench, enfocado en atención al cliente.
Los resultados son sobresalientes:
- Turn taking fluido: Takeover Rate (TOR) de 0.908 con una latencia de 0.170 segundos.
- Gestión de interrupciones: TOR de 0.950 con latencia de 0.240 segundos.
- Similitud de voz: puntuación de 0.650 usando embeddings WavLM TDNN.
En comparación con otros sistemas abiertos y propietarios, PersonaPlex supera a muchos en dinámica conversacional, baja latencia y cumplimiento de tareas, tanto en asistentes generales como en escenarios de servicio al cliente.
Conclusión
PersonaPlex-7B-v1 representa un paso clave hacia asistentes de voz verdaderamente naturales. Su enfoque full dúplex, el control avanzado de personalidad y su sólida arquitectura técnica lo convierten en una referencia para futuras aplicaciones en asistentes inteligentes, call centers, educación y experiencias inmersivas. Con código bajo licencia MIT y pesos bajo la NVIDIA Open Model License, este modelo abre nuevas posibilidades para el desarrollo de interfaces de voz más humanas y eficientes.
