Dans le domaine de l'intelligence artificielle, Hume AI a récemment annoncé le lancement de son nouveau produit, Octave, un système connu sous le nom de premier système de texte vocal propulsé par un modèle grand langage (LLM). Ce qui est l'innovation en octave, c'est qu'il peut non seulement générer une voix naturelle, mais aussi comprendre les émotions, l'intonation, le rythme et le rythme dans le contexte, offrant ainsi aux utilisateurs une sortie vocale plus vive et humanisée.
Alan Cowen, co-fondateur et PDG de Hume AI, a déclaré dans une interview avec les médias que l'intention initiale du modèle d'octave était de rendre le processus de génération de texte à dispection plus naturel et plus flexible. Il a mentionné que l'octave peut identifier automatiquement la personnalité et l'état émotionnel du personnage en fonction du contenu du texte d'entrée et ajuster les performances vocales en conséquence. Par exemple, les phrases sarcastiques sont exprimées sur un ton sarcastique, tandis que le contenu urgent est présenté sur un ton précipité.

Octave dispose également d'une fonctionnalité unique où les utilisateurs peuvent apporter des ajustements méticuleux au son généré par des instructions simples en langage naturel. Cela signifie que les utilisateurs peuvent entrer directement dans des descriptions telles que «plus heureuses» et «plus tristes», afin que la voix générée soit plus conforme à leurs attentes. Cowen a ajouté que l'octave peut immédiatement générer des voix correspondantes en fonction des caractéristiques du personnage, telles que des "paysans médiévaux sarcastiques", et s'adapter en conséquence dans l'expression émotionnelle.

Contrairement au modèle traditionnel de traitement textuel, les valeurs d'octave valent la cohérence du contexte et peuvent capturer des changements émotionnels au niveau de la phrase et entre les phrases. Cette capacité fait que Octave fonctionne mieux lorsqu'il s'agit d'émotions et de contextes complexes.
Avec le développement rapide de la technologie de l'intelligence artificielle, le système octave de Hume AI a apporté de nouvelles possibilités à la technologie de texte vocale. Il peut non seulement fournir un doublage de personnages plus réaliste pour des industries telles que la production cinématographique et télévisée et le développement de jeux, mais également ouvrir de nouvelles directions pour les applications dans des domaines tels que l'éducation et le service client. Cette innovation dans Hume IA favorisera davantage le développement de la technologie vocale et aidera des méthodes de communication plus naturelles et émotionnelles.