Les assistants vocaux deviennent progressivement une partie indispensable de notre vie quotidienne. Cependant, les assistants vocaux numériques existants semblent souvent ternes et manquent d'éléments émotionnels et humains lors de l'interaction avec les utilisateurs. Pour y remédier, l'équipe Sesame travaille à mettre en œuvre un concept complètement nouveau de «présence vocale» qui vise à rendre les assistants numériques plus réalistes, compréhensibles et appréciés dans la communication.

L'objectif principal de Sesame est de créer un compagnon numérique, pas seulement un outil pour gérer les demandes. Ces partenaires numériques espèrent progressivement développer un sentiment de confiance et de confiance en soi grâce à l'interaction avec les utilisateurs, afin que les utilisateurs puissent vivre une communication plus riche et plus profonde dans leur vie quotidienne. Pour y parvenir, l'équipe Sesame s'est concentrée sur plusieurs composantes clés, notamment l'intelligence émotionnelle, la dynamique conversationnelle, la conscience contextuelle et les traits de personnalité cohérents.
L'intelligence émotionnelle est la capacité de permettre aux assistants vocaux de comprendre et de répondre aux états émotionnels des utilisateurs. Cela dépend non seulement de la compréhension des commandes vocales, mais c'est de pouvoir percevoir des changements émotionnels dans la voix et ainsi faire des commentaires plus appropriés. Deuxièmement, la dynamique du dialogue souligne le rythme naturel que les assistants vocaux devraient avoir pendant le processus de communication, y compris les pauses opportunes, l'accent et les interruptions de ton approprié, etc., ce qui rend le dialogue plus fluide et plus naturel.
De plus, la sensibilisation au contexte est également cruciale. Il faut des assistants vocaux pour ajuster de manière flexible leur voix et leur style en fonction du contexte et de l'histoire de la conversation pour correspondre à la situation actuelle. Cette capacité peut rendre les assistants numériques appropriés à différentes occasions, améliorant ainsi la satisfaction des utilisateurs. Enfin, des traits de personnalité cohérents signifient que les assistants vocaux devraient maintenir une personnalité et un style relativement cohérents dans diverses conversations pour améliorer le sentiment de confiance des utilisateurs.
Cependant, il n'est pas facile d'atteindre l'objectif de "l'existence vocale". L'équipe Sesame a progressé dans divers aspects de la personnalité, de la mémoire, de l'expressivité et de la pertinence. Récemment, l'équipe a démontré certains résultats expérimentaux dans la génération de discours de dialogue, en particulier en termes de convivialité et d'expressivité, démontrant pleinement le potentiel de sa méthode.
Au niveau technique, l'équipe de Sesame a proposé une nouvelle approche appelée "Dialogue Phonetic Model" (CSM) pour répondre aux lacunes du modèle traditionnel de texte vocal (TTS). Cette approche utilise l'architecture du convertisseur et vise à atteindre une génération de discours plus naturelle et cohérente. CSM traite non seulement de l'apprentissage multimodal du texte et de l'audio, mais ajuste également la sortie en fonction de l'historique de la conversation, résolvant ainsi les lacunes des modèles traditionnels dans la compréhension contextuelle.
Afin de vérifier l'effet du modèle, l'équipe de Sesame a utilisé une grande quantité de données audio publiques pour la formation et la formation d'échantillons de formation par la transcription, la segmentation, etc. Ils ont formé des modèles de différentes tailles et ont obtenu de bons résultats sur des indicateurs d'évaluation objectifs et subjectifs, et bien que le modèle soit actuellement proche du niveau humain en termes de naturalité et d'adaptabilité de la prononciation, elle doit encore être améliorée dans des situations de dialogue spécifiques.
À en juger par les échantillons donnés par le fonctionnaire, les œuvres générées peuvent difficilement entendre des composants d'IA, ce qui est super réaliste.
L'équipe de Sesame prévoit d'ouvrir ses recherches afin que la communauté puisse participer à l'expérimentation et à l'amélioration. Cette décision aide non seulement à accélérer le développement de l'IA du dialogue, mais espère également couvrir plus de scénarios d'application en élargissant l'échelle du modèle et le support linguistique. De plus, l'équipe prévoit d'explorer comment utiliser des modèles de langage pré-formés pour jeter les bases de la construction de modèles multimodaux.
Démo du projet: https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
Points clés:
L'équipe Sesame s'est engagée à atteindre la «présence vocale» afin que les assistants numériques puissent non seulement exécuter des commandes, mais aussi avoir de vraies conversations.
Grâce au modèle phonétique du dialogue (CSM), l'équipe a fait de nouvelles percées dans la compréhension du contexte et la génération de la parole.
L'équipe prévoit des résultats de recherche open source et élargit le soutien linguistique pour stimuler le développement de l'IA conversationnelle.