Los asistentes de voz se están convirtiendo gradualmente en una parte indispensable de nuestra vida diaria. Sin embargo, los asistentes de voz digital existentes a menudo parecen aburridos y carecen de elementos emocionales y humanos al interactuar con los usuarios. Para abordar esto, el equipo de sésamo está trabajando para implementar un concepto completamente nuevo de "presencia de voz" que tiene como objetivo hacer que los asistentes digitales sean más realistas, comprensibles y valorados en la comunicación.

El objetivo principal de Sesame es crear un compañero digital, no solo una herramienta para manejar solicitudes. Estos socios digitales esperan desarrollar gradualmente una sensación de confianza y confianza en sí mismo a través de la interacción con los usuarios, para que los usuarios puedan experimentar una comunicación más rica y profunda en su vida cotidiana. Para lograr esto, el equipo de sésamo se centró en varios componentes clave que incluyen inteligencia emocional, dinámica de conversación, conciencia contextual y rasgos de personalidad consistentes.
La inteligencia emocional es la capacidad de permitir que los asistentes de voz entiendan y respondan a los estados emocionales de los usuarios. No solo depende de la comprensión de los comandos de voz, sino que es poder percibir los cambios emocionales en la voz y, por lo tanto, hacer comentarios más apropiados. En segundo lugar, la dinámica del diálogo enfatiza el ritmo natural que los asistentes de voz deberían tener durante el proceso de comunicación, incluidas las pausas oportunas, el énfasis y las interrupciones de tono apropiadas, etc., lo que hace que el diálogo sea más suave y natural.
Además, la conciencia del contexto también es crucial. Requiere asistentes de voz para ajustar de manera flexible su voz y estilo en función del contexto y la historia de la conversación para que coincidan con la situación actual. Esta capacidad puede hacer que los asistentes digitales parezcan apropiados en diferentes ocasiones, mejorando así la satisfacción del usuario. Finalmente, los rasgos de personalidad consistentes significan que los asistentes de voz deben mantener una personalidad y un estilo relativamente consistentes en varias conversaciones para mejorar el sentido de confianza de los usuarios.
Sin embargo, no es fácil lograr el objetivo de la "existencia de voz". El equipo de sésamo ha avanzado en varios aspectos de la personalidad, la memoria, la expresividad y la idoneidad. Recientemente, el equipo ha demostrado algunos resultados experimentales en la generación del habla del diálogo, especialmente en términos de amistad y expresividad, demostrando completamente el potencial de su método.
A nivel técnico, el equipo de sésamo propuso un nuevo enfoque llamado "Modelo fonético de diálogo" (CSM) para abordar las deficiencias del modelo tradicional de texto a voz (TTS). Este enfoque utiliza la arquitectura convertidor y tiene como objetivo lograr una generación del habla más natural y coherente. CSM no solo trata el aprendizaje multimodal de texto y audio, sino que también ajusta el resultado en función de la historia de la conversación, resolviendo así las deficiencias de los modelos tradicionales en la comprensión contextual.
Para verificar el efecto del modelo, el equipo de sésamo utilizó una gran cantidad de datos de audio público para la capacitación y las muestras de capacitación preparadas a través de la transcripción, la segmentación, etc. Entrenados en modelos de diferentes tamaños y lograron buenos resultados en indicadores objetivos y subjetivos, y aunque el modelo está actualmente cerca del nivel humano en términos de naturaleza y adaptabilidad de pronunciación, aún debe mejorarse en situaciones de diálogo específicos.
A juzgar por las muestras dadas por el funcionario, las obras generadas apenas pueden escuchar componentes de IA, lo cual es súper realista.
El equipo de sésamo planea abrir su investigación para que la comunidad pueda participar en la experimentación y la mejora. Este movimiento no solo ayuda a acelerar el desarrollo de la IA del diálogo, sino que también espera cubrir más escenarios de aplicaciones mediante la expansión de la escala del modelo y el soporte del lenguaje. Además, el equipo planea explorar cómo usar modelos de lenguaje previamente capacitados para sentar las bases para la construcción de modelos multimodales.
Demostración del proyecto: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
Puntos clave:
El equipo de sésamo se compromete a lograr la "presencia de voz" para que los asistentes digitales no solo puedan ejecutar comandos, sino también tener conversaciones reales.
A través del Modelo Fonético de Diálogo (CSM), el equipo ha realizado nuevos avances en la comprensión del contexto y la generación del habla.
El equipo planea resultados de investigación de código abierto y expande el soporte del lenguaje para impulsar un mayor desarrollo de IA conversacional.