Le projet Funaudiollm récemment lancé par Alibaba Tongyi Labs marque une toute nouvelle ère de technologie de génération audio. Ce projet open source a redéfini la possibilité d'une interaction vocale humaine-ordinateur à travers ses deux modèles de base SenseVoice et Cosyvoice. Funaudiollm démontre non seulement l'accumulation profonde d'Alibaba dans le domaine de l'intelligence artificielle, mais souligne également la direction du développement futur de la technologie vocale intelligente.
En tant que moteur de génération de voix du projet, les percées technologiques de Cosyvoice sont impressionnantes. Après 150 000 heures de formation des données multilingues, le modèle a non seulement atteint une génération en douceur de cinq langues, à savoir le chinois, l'anglais, le japonais, le Guangdong et le coréen, mais a également atteint un nouveau niveau de simulation de tonalité et de contrôle émotionnel. Sa capacité de génération vocale unique d'échantillon zéro permet au modèle de s'adapter rapidement à la voix du nouvel haut-parleur, offrant des possibilités illimitées pour les services vocaux personnalisés. En particulier dans la synthèse du son transversal, Cosyvoice a montré une adaptabilité incroyable, ouvrant la voie aux applications d'interaction vocale mondiales.
SenseVoice représente une nouvelle référence dans la technologie de reconnaissance vocale. Après 400 000 heures de formation de données multilingues, sa précision de reconnaissance dépasse considérablement le modèle de chuchotement existant dans plus de 50 langues. Dans la reconnaissance chinoise et cantonaise, le taux de précision a augmenté de plus de 50%, ce qui a apporté une percée révolutionnaire à l'application vocale intelligente sur le marché chinois. Il convient de mentionner que SenseVoice intègre la reconnaissance des émotions et les fonctions de détection d'événements audio, permettant à la machine non seulement de comprendre le langage, mais aussi de comprendre les émotions et les informations de scène de l'orateur.

Funaudiollm a des scénarios d'application extrêmement larges, de la traduction multilingue en temps réel aux conversations vocales émotionnelles, des podcasts interactifs aux livres audio intelligents, chaque champ contient une énorme valeur commerciale. En combinant la reconnaissance précise de SenseVoice, une forte compréhension des LLM et une génération naturelle de cosyvoice, le projet réalise une véritable expérience interactive vocale de bout en bout. Cette capacité de traduction vocale sans couture révolutionnera la façon dont la communication transversale et apportera de nouvelles possibilités aux échanges commerciaux et culturels mondialisés.
En termes de mise en œuvre technique, Cosyvoice adopte une technologie de codage de quantification de la parole avancée pour assurer le naturel et la maîtrise de la parole générée. SenseVoice intègre des fonctions telles que la reconnaissance automatique de la parole, la reconnaissance du langage, la reconnaissance des émotions et la détection d'événements audio dans un modèle unifié via un cadre d'apprentissage multi-tâches, améliorant considérablement l'efficacité et la précision du système. Cette architecture technique réduit non seulement les coûts informatiques, mais fournit également une bonne base pour l'optimisation des modèles ultérieure et l'expansion fonctionnelle.
L'attitude ouverte du laboratoire Alibaba Tongyi est également louable. L'équipe de projet a non seulement publié les modèles complets et le code sur Modelscope et HuggingFace, mais a également fourni des guides de formation, de raisonnement et de réglage fin détaillé sur GitHub. Cet esprit open source favorisera grandement la recherche et le développement d'applications dans le domaine de la technologie vocale et aura un impact positif sur l'ensemble de l'industrie.
Adresse du projet: https://github.com/funaudiollm