Voice Ai est "en une étape"! Étape Open Source 130B Modèle vocal dominant, dialogue en temps réel + clonage émotionnel, explosion arrive - Articles AI

Auteur：Eve Cole Date de mise à jour：2025-05-15 03:25:02

Le domaine de la technologie d'interaction vocale a récemment inauguré une percée majeure. Step Audio, une société d'IA nationale de premier plan, a annoncé l'open source d'un modèle vocal super grand avec 130 milliards de paramètres. Cette réalisation innovante a attiré une large attention dans l'industrie et est saluée comme une étape importante dans le développement de la technologie de l'IA Voice. Ce modèle est non seulement le premier système de dialogue vocal en temps open source intégrant la compréhension de la parole et le contrôle de génération, mais indique également que la technologie d'interaction vocale passera à une nouvelle hauteur avec ses fonctions complètes et ses technologies avancées.

Le point culminant de ce modèle open source est sa conception intégrée et ses puissantes capacités de contrôle. Il comprend non seulement avec précision les commandes vocales de l'utilisateur, mais contrôle également le processus de génération de voix, offrant aux utilisateurs une expérience interactive personnalisée sans précédent. Cette conception rend l'interaction vocale plus naturelle et plus fluide, améliorant considérablement l'expérience utilisateur.

En termes de support linguistique, ce modèle démontre d'excellentes capacités de traitement multilingues, peut basculer en douceur entre les langues chinoises, anglaises, japonaises et autres, et facilement faire face aux scénarios de communication transversales. De plus, il soutient profondément une variété de dialectes, tels que le cantonais, le dialecte du Sichuan, etc., rendant l'interaction vocale plus proche de la vie quotidienne et plus humaine.

En plus des capacités de traitement du langage, ce modèle a également de belles fonctions de contrôle des émotions vocales. Les utilisateurs peuvent donner le ton émotionnel de la voix en fonction de leurs besoins, tels que le bonheur, la tristesse, etc., pour rendre l'expression de l'IA plus contagieuse. Dans le même temps, la vitesse de la parole et le style de rythme peuvent également être ajustés en fonction des besoins de la scène pour répondre à divers besoins d'expression. Ce qui est encore plus surprenant, c'est que le modèle prend également en charge des formes vocales plus créatives telles que le rap et le bourdonnement, offrant des possibilités illimitées de création de contenu.

De plus, ce modèle a également une fonction de clonage vocale, et les utilisateurs peuvent créer un assistant vocal très personnalisé via cette technologie, et même réaliser la "réplique" et "l'héritage" du son. Cette fonction apporte plus de scénarios d'application et de possibilités pour exprimer la technologie d'interaction.

L'open source de Jieyue, un modèle vocal aussi puissant, favorisera sans aucun doute grandement les progrès technologiques et l'innovation des applications dans toute l'industrie. Non seulement il réduit considérablement le seuil d'application de la technologie de l'IA vocale, mais indique également que l'interaction vocale deviendra plus intelligente, naturelle et personnalisée à l'avenir, s'intègre vraiment à la vie quotidienne des gens.

Adresse du projet: https://github.com/stepfun-ai/step-audio/tree/main