Le modèle de voix de l'âme a été considérablement amélioré : les appels vocaux de bout en bout en temps réel entre des personnes réelles et des personnes virtuelles IA sont tellement déroutants !

Auteur：Eve Cole Date de mise à jour：2025-03-06 01:00:03

Soul App a récemment réalisé une percée majeure dans le domaine de « l'IA + social » ! L'éditeur de Downcodes a appris que Soul avait officiellement annoncé que son modèle d'appel vocal full duplex de bout en bout auto-développé avait été à nouveau mis à niveau, permettant des conversations vocales naturelles et fluides avec des personnes virtuelles aussi naturelles et fluides que de vraies personnes. Cette décision marque une étape importante pour Soul dans l'application de la technologie de l'IA, offrant aux utilisateurs une expérience sociale plus immersive et interactive. Cet article approfondira les caractéristiques uniques de ce grand modèle et l’exploration de Soul dans le domaine social de l’IA.

Sur la piste nationale « IA + social », Soul App est sur le point d'utiliser l'IA pour injecter une nouvelle vitalité !

Récemment, Soul a officiellement annoncé que son modèle vocal avait de nouveau été mis à niveau et qu'un modèle d'appel vocal en duplex intégral de bout en bout auto-développé a été lancé.

L'effet le plus étonnant de cette mise à niveau est que l'appel vocal entre l'utilisateur et la personne virtuelle peut être aussi naturel et fluide que discuter avec une personne réelle !

Dans quelle mesure l'effet est-il réaliste ? Vous pouvez d'abord regarder la vidéo ci-dessous pour vous en faire une idée :

Un exemple officiel de « Vivez des appels en temps réel avec l'IA »

Alors, qu’y a-t-il de si spécial dans le modèle d’appel vocal de bout en bout développé par Soul, selon la description officielle, ses plus grands points forts incluent :

Avec une latence d'interaction ultra faible
Interruption automatique rapide
Expression vocale super réaliste
Perception émotionnelle et capacité de compréhension, etc.

La capacité de délai d'interaction ultra-faible signifie qu'au moment où vous parlez, l'IA peut répondre immédiatement sans aucun délai et la distance entre vous et l'IA peut être raccourcie en un instant. Si vous voulez avoir une vraie communication avec lui, vous n’avez pas besoin d’attendre du tout, c’est comme parler à une vraie personne.

Le grand modèle vocal de Soul prend en charge une interruption automatique rapide. En d'autres termes, lorsque vous communiquez avec l'IA, si vous souhaitez interrompre, elle peut parfaitement comprendre ce que vous voulez dire et interrompre facilement l'autre partie. Ce type d'interaction est vraiment intéressant !

Enfin, couplée à une expression vocale ultra-réaliste et à des capacités de perception et de compréhension émotionnelles , l'IA peut non seulement comprendre vos mots, mais également ressentir vos émotions et donner des réponses appropriées en fonction de vos émotions.

Sur la base de l'exemple vidéo officiel, si cette fonctionnalité est entièrement lancée à l'avenir, on estime qu'un grand nombre d'utilisateurs pourraient ne pas être en mesure de faire la distinction entre les personnes réelles et les personnes virtuelles IA lorsqu'ils en feront l'expérience sur Soul.

Soul a déclaré que son grand modèle d'appel vocal de bout en bout a été appliqué au scénario d'appel en temps réel "Echo of Another World" (sous test interne) et sera étendu à plusieurs scénarios de compagnie et d'interaction d'IA tels que l'IA. Gou Dan dans le futur.

Il est entendu que dès 2020, Soul a lancé la recherche et le développement technologique AIGC, en se concentrant sur la recherche et le développement de technologies clés telles que le dialogue intelligent, la technologie vocale et les humains virtuels, et en intégrant profondément ces capacités d'IA dans des scénarios sociaux.

Dans le processus d’utilisation de l’IA pour améliorer l’interaction sociale, Soul accorde une attention particulière à la réalisation d’une expérience de camaraderie émotionnelle anthropomorphique et naturelle.

Afin d'apporter un meilleur retour émotionnel et une meilleure camaraderie aux utilisateurs, l'équipe technique de Soul a prêté attention aux problèmes de compréhension émotionnelle et de retard. Ils ont lancé des modèles de génération vocale, des modèles de reconnaissance vocale, des modèles de dialogue vocal, des modèles de génération de musique, etc., qui prennent en charge la génération de sons réels, le bricolage vocal, la commutation multilingue, le dialogue immersif multi-émotionnel en temps réel et d'autres fonctions. Ceux-ci ont déjà été utilisés dans plusieurs scénarios de Soul, tels que "AI Goudan", "Werewolf Phantom", interaction vocale en temps réel avec l'IA, "Echo from Another World", etc.

Le modèle d'appel vocal de bout en bout développé par Soul est désormais en ligne, ce qui signifie que les utilisateurs peuvent profiter d'une expérience d'interaction homme-machine plus naturelle. À l’avenir, Soul prévoit également de promouvoir davantage la construction de capacités de grands modèles multimodaux de bout en bout pour rendre l’interaction entre les personnes et l’IA plus intéressante et immersive.

Cette fois, la mise à niveau de la technologie IA de Soul améliore non seulement l'expérience utilisateur, mais fournit également de nouvelles idées pour l'orientation future du développement de « IA + social ». Je pense que dans un avenir proche, nous verrons l’émergence d’applications sociales plus innovantes basées sur la technologie de l’IA, apportant plus de plaisir et de commodité à la vie sociale des gens.