En el campo de la inteligencia artificial, Hume AI anunció recientemente el lanzamiento de su nuevo producto, Octave, un sistema conocido como el primer sistema de texto a voz alimentado por un modelo de lenguaje grande (LLM). Lo que es la innovación en Octave es que no solo puede generar una voz natural sino también comprender las emociones, la entonación, el ritmo y el ritmo en el contexto, proporcionando así a los usuarios una salida de voz más vívida y humanizada.
Alan Cowen, cofundador y CEO de Hume Ai, dijo en una entrevista con los medios de comunicación que la intención original del modelo Octave era hacer que el proceso de generación de texto a voz sea más natural y flexible. Mencionó que Octave puede identificar automáticamente la personalidad y el estado emocional del personaje en función del contenido del texto de entrada, y ajustar el rendimiento de la voz en consecuencia. Por ejemplo, las oraciones sarcásticas se expresan en un tono sarcástico, mientras que el contenido urgente se presenta en un tono apresurado.

Octave también tiene una característica única donde los usuarios pueden hacer ajustes meticulosos al sonido generado a través de simples instrucciones de lenguaje natural. Esto significa que los usuarios pueden ingresar directamente descripciones como "más feliz" y "más triste", de modo que la voz generada esté más en línea con sus expectativas. Cowen agregó que Octave puede generar inmediatamente las voces correspondientes basadas en las características del personaje, como "campesinos medievales sarcásticos", y ajustarse en consecuencia en la expresión emocional.

A diferencia del modelo de procesamiento literal tradicional, los valores de octava coherencia de contexto y pueden capturar cambios emocionales en el nivel de oración y entre oraciones. Esta habilidad hace que Octave funcione mejor cuando se trata de emociones y contextos complejos.
Con el rápido desarrollo de la tecnología de inteligencia artificial, el sistema de octava de Hume Ai ha traído nuevas posibilidades a la tecnología de texto a voz. No solo puede proporcionar doblaje de personajes más realistas para industrias como la producción de cine y televisión y el desarrollo de juegos, sino que también abrir nuevas direcciones para aplicaciones en campos como la educación y el servicio al cliente. Esta innovación en Hume AI promoverá aún más el desarrollo de la tecnología de voz y ayudará a los métodos de comunicación más natural y emocional.