ToucanTTS : Le « Roi des Dix Mille Langues » dans le domaine de la synthèse vocale, prenant en charge plus de 7 000 langues

Auteur：Eve Cole Date de mise à jour：2025-02-28 05:00:02

Aujourd’hui, avec le développement rapide de l’intelligence artificielle, un outil de synthèse vocale capable de gérer plusieurs langues de manière fluide est particulièrement important. Des chercheurs de l'Université de Stuttgart ont lancé ToucanTTS, un étonnant modèle de synthèse vocale (TTS) prenant en charge plus de 7 000 langues, couvrant presque toutes les langues standard ISO-639-3. Cela favorisera sans aucun doute grandement la communication et la compréhension entre les différentes langues du monde, ouvrant de nouvelles possibilités pour la communication interculturelle et les applications de l'intelligence artificielle. L'émergence de ToucanTTS marque une nouvelle étape dans la technologie de synthèse vocale.

Dans ce monde avec toutes sortes de langues étranges, est-il encore plus difficile de trouver un assistant de synthèse vocale capable de parler toutes les langues du monde ? Ne vous inquiétez pas, les meilleurs étudiants de l'Université de Stuttgart ? ont fait un grand pas en avant - ToucanTTS, un modèle de synthèse vocale (TTS) qui parle plus de 7 000 langues !

ToucanTTS, ce nom sonne très énergique, derrière lui se cache la technologie noire d'IMS. Il prend en charge presque toutes les langues standard ISO-639-3, ce qui signifie qu'il peut théoriquement parler plus de langues que vous ne le savez. Le potentiel d’un tel projet à l’échelle mondiale est tout simplement illimité.

Fonctions principales :

Prise en charge multilingue : ToucanTTS prend en charge presque toutes les langues standards ISO-639-3 et peut théoriquement couvrir plus de 7 000 langues. C'est actuellement le modèle TTS qui prend en charge le plus de langues.

Plusieurs styles de synthèse vocale : prend en charge la simulation du rythme, de l'accent et de l'intonation de différents locuteurs, offrant ainsi une diversité de styles et une personnalisation de la voix.

Synthèse vocale contrôlable : les utilisateurs peuvent contrôler les paramètres de la parole tels que la hauteur, la vitesse de parole et l'émotion pour générer une parole avec différentes émotions ou styles.

Génération vocale de haute qualité : utilisation du framework PyTorch et de la technologie d'apprentissage en profondeur pour garantir une haute fidélité et un naturel de la génération vocale.

Fonction d'édition humaine : contient une fonction d'édition humaine dans la boucle, adaptée aux tâches de recherche littéraire et de lecture de poésie.

Aligneur autonome : aligneur qui comprend une formation à la reconstruction du CTC et du spectrogramme pour améliorer la précision et la qualité de la synthèse vocale.

Outils de prétraitement des données : fournissez des outils de prétraitement des données pour simplifier la préparation des données de formation.

Une personne a des milliers de visages, et sa voix peut aussi « changer de visage »

ToucanTTS peut non seulement parler plusieurs langues, mais peut également simuler les styles de différents locuteurs, qu'il s'agisse de l'intonation, de l'accent ou du rythme, vous pouvez facilement le contrôler. C'est une excellente nouvelle pour les applications qui nécessitent une diversité vocale.

La boîte à outils permet également aux utilisateurs de contrôler plusieurs paramètres de la parole, tels que la hauteur, la vitesse, l'émotion, etc. Voulez-vous un doux réconfort ou des encouragements passionnés ? ToucanTTS peut vous l'offrir.

Une voix de haute qualité, aussi naturelle qu'une vraie personne qui parle

Grâce au framework PyTorch et à la technologie d'apprentissage profond, la qualité vocale générée par ToucanTTS est si élevée qu'elle peut être fausse. La formation et l’inférence de bout en bout lui permettent de gérer facilement des tâches complexes de synthèse vocale.

ToucanTTS dispose également d'une fonction d'édition humaine, particulièrement adaptée à la recherche littéraire et à la lecture de poésie. Les utilisateurs peuvent personnaliser la voix synthétisée selon leurs propres préférences, permettant ainsi à la machine de mieux comprendre votre cœur.

L'aligneur autonome rend la synthèse vocale plus précise

L'aligneur intégré, entraîné à l'aide de la reconstruction CTC et spectrogramme, améliore encore la précision et la qualité de la synthèse vocale.

ToucanTTS fournit également un ensemble complet d'outils de prétraitement des données, qui simplifie la préparation des données d'entraînement et rend la synthèse vocale plus efficace.

Adresse du projet : https://github.com/DigitalPhonetics/IMS-Toucan

Démo en ligne : https://huggingface.co/spaces/Flux9665/MassivelyMultilingualTTS

Dans l'ensemble, ToucanTTS a apporté des percées révolutionnaires dans le domaine de la synthèse vocale grâce à sa puissante prise en charge multilingue, sa génération vocale de haute qualité et son opérabilité pratique, et ses perspectives d'application futures sont incommensurables. Nous espérons que ToucanTTS sera largement utilisé dans divers domaines et offrira une expérience vocale plus pratique et plus intelligente aux utilisateurs du monde entier.