Os assistentes de voz estão gradualmente se tornando uma parte indispensável de nossas vidas diárias. No entanto, os assistentes de voz digital existentes geralmente parecem monótonos e não têm elementos emocionais e humanos ao interagir com os usuários. Para abordar isso, a equipe de gergelim está trabalhando para implementar um conceito completamente novo de "presença de voz" que visa tornar os assistentes digitais mais realistas, compreensíveis e valorizados na comunicação.

O objetivo principal da gergelim é criar um companheiro digital, não apenas uma ferramenta para lidar com solicitações. Esses parceiros digitais esperam construir gradualmente um senso de confiança e autoconfiança através da interação com os usuários, para que os usuários possam experimentar uma comunicação mais rica e mais profunda em suas vidas diárias. Para conseguir isso, a equipe de gergelim se concentrou em vários componentes -chave, incluindo inteligência emocional, dinâmica de conversação, consciência contextual e traços de personalidade consistentes.
A inteligência emocional é a capacidade de permitir que os assistentes de voz entendam e respondam aos estados emocionais dos usuários. Depende não apenas do entendimento dos comandos de voz, mas é capaz de perceber mudanças emocionais na voz e, assim, fazer feedback mais apropriado. Em segundo lugar, a dinâmica de diálogo enfatiza o ritmo natural que os assistentes de voz devem ter durante o processo de comunicação, incluindo pausas oportunas, ênfase e interrupções apropriadas, tornando o diálogo mais suave e natural.
Além disso, a conscientização do contexto também é crucial. Requer que os assistentes de voz ajustem flexivelmente sua voz e estilo com base no contexto e no histórico da conversa para combinar com a situação atual. Esse recurso pode fazer com que os assistentes digitais pareçam apropriados em diferentes ocasiões, melhorando assim a satisfação do usuário. Finalmente, traços de personalidade consistentes significam que os assistentes de voz devem manter uma personalidade e estilo relativamente consistentes em várias conversas para aprimorar o senso de confiança dos usuários.
No entanto, não é fácil alcançar o objetivo da "existência de voz". A equipe de gergelim fez progresso em vários aspectos da personalidade, memória, expressividade e adequação. Recentemente, a equipe demonstrou alguns resultados experimentais na geração de fala do diálogo, especialmente em termos de simpatia e expressividade, demonstrando totalmente o potencial de seu método.
No nível técnico, a equipe de gergelim propôs uma nova abordagem chamada "Modelo Fonético de Diálogo" (CSM) para abordar as deficiências do modelo tradicional de texto em fala (TTS). Essa abordagem utiliza a arquitetura do conversor e tem como objetivo alcançar uma geração de fala mais natural e coerente. O CSM não apenas lida com o aprendizado multimodal de texto e áudio, mas também ajusta a saída com base no histórico da conversa, resolvendo assim as deficiências dos modelos tradicionais em entendimento contextual.
A fim de verificar o efeito do modelo, a equipe de gergelim usou uma grande quantidade de dados públicos de áudio para treinamento e preparou amostras de treinamento por meio de transcrição, segmentação, etc. Eles treinaram modelos de tamanhos diferentes e alcançaram bons resultados sobre objetivos e indicadores de avaliação subjetiva, e embora o modelo esteja atualmente próximo ao nível do humano em termos de facilidade de adaptação e pronúncia.
A julgar pelas amostras dadas pelo funcionário, as obras geradas dificilmente podem ouvir componentes de IA, o que é super realista.
A equipe de gergelim planeja abrir sua pesquisa para que a comunidade possa participar de experimentação e melhoria. Esse movimento não apenas ajuda a acelerar o desenvolvimento do diálogo IA, mas também espera cobrir mais cenários de aplicação, expandindo a escala do modelo e o suporte à linguagem. Além disso, a equipe planeja explorar como usar modelos de idiomas pré-treinados para estabelecer a base para a construção de modelos multimodais.
Demonstração do projeto: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
Pontos -chave:
A equipe de gergelim está comprometida em alcançar a "presença de voz" para que os assistentes digitais possam não apenas executar comandos, mas também ter conversas reais.
Através do modelo fonético de diálogo (CSM), a equipe fez novos avanços na compreensão do contexto e na geração de fala.
A equipe planeja os resultados da pesquisa de código aberto e expande o suporte à linguagem para impulsionar o desenvolvimento de IA de conversação.