No campo da inteligência artificial, a Hume AI anunciou recentemente o lançamento de seu novo produto, Octave, um sistema conhecido como o primeiro sistema de texto em fala alimentado por um grande modelo de linguagem (LLM). O que é a inovação em oitava é que ela pode não apenas gerar voz natural, mas também entender emoções, entonação, ritmo e ritmo no contexto, proporcionando assim que os usuários saem mais vívidos e humanizados.
Alan Cowen, co-fundador e CEO da Hume AI, disse em entrevista à mídia que a intenção original do modelo de oitava era tornar o processo de geração de texto em fala mais natural e flexível. Ele mencionou que a Octave pode identificar automaticamente a personalidade e o estado emocional do personagem com base no conteúdo do texto de entrada e ajustar o desempenho da voz de acordo. Por exemplo, frases sarcásticas são expressas em um tom sarcástico, enquanto o conteúdo urgente é apresentado em um tom de corrida.

O Octave também possui um recurso exclusivo em que os usuários podem fazer ajustes meticulosos ao som gerado por meio de instruções simples de linguagem natural. Isso significa que os usuários podem inserir diretamente descrições como "mais felizes" e "sader", para que a voz gerada esteja mais alinhada com suas expectativas. Cowen acrescentou que a Octave pode gerar imediatamente vozes correspondentes com base nas características do personagem, como "camponeses medievais sarcásticos", e ajustar de acordo com a expressão emocional.

Diferentemente do modelo tradicional de processamento literal, o oitavo valoriza a coerência do contexto e pode capturar alterações emocionais no nível da frase e entre sentenças. Essa habilidade faz com que o Octave tenha um desempenho melhor ao lidar com emoções e contextos complexos.
Com o rápido desenvolvimento da tecnologia de inteligência artificial, o sistema de oitavas da Hume AI trouxe novas possibilidades à tecnologia de texto em fala. Ele pode não apenas fornecer dublagem de caráter mais realista para indústrias como produção de filmes e televisão e desenvolvimento de jogos, mas também abrir novas direções para aplicações em áreas como educação e atendimento ao cliente. Essa inovação na IA da Hume promoverá ainda mais o desenvolvimento da tecnologia de voz e ajudará os métodos de comunicação mais naturais e emocionais.