Bilibili a récemment publié un modèle de texte vocal appelé Indexts. Ce modèle est basé sur les technologies XTTS et Tortoise et adopte une architecture de style GPT. Lors du traitement du texte chinois, ce système innovant a une fonction de prononciation de caractère chinois de correction de pinyin unique et peut contrôler avec précision les pauses à n'importe quelle position par des marques de ponctuation. L'introduction de cette technologie rend l'effet de texte vocal plus naturel et plus fluide, améliorant considérablement l'expérience utilisateur et attirant une attention généralisée.
Après des dizaines de milliers d'heures de formation sur les données, le système d'indextts a atteint le leadership de l'industrie en performance, dépassant les systèmes TTS populaires actuels, tels que XTTS, CosyVoice2, Fish-Speech et F5-TTS. Plusieurs modules du système ont été profondément optimisés, en particulier avec des améliorations significatives de la représentation des fonctionnalités conditionnelles du haut-parleur et de la qualité de l'audio. En introduisant la modélisation hybride, les Indexts peuvent rapidement corriger les caractères chinois mal lus, améliorant davantage l'expérience utilisateur.
Le modèle adopte le dernier encodeur conditionnel et décodeur vocal basé sur BIGVGAN2, qui non seulement améliore la stabilité de la formation, mais améliore également la similitude et la qualité sonore du son. L'équipe de R&D a déclaré avoir soumis des articles pertinents sur ArXIV et prévoit de publier des paramètres et du code du modèle au cours des prochaines semaines. En outre, les Indexts fournissent également une variété d'ensembles de tests, notamment un vocabulaire multisyllabe et des ensembles d'examen subjectifs et objectifs pour une analyse approfondie par les chercheurs.
Les Indexts ont bien fonctionné dans plusieurs critiques, en particulier en termes de taux d'erreur de mot (WER) et de similitude des haut-parleurs (SS), qui a surperformé de nombreux modèles de pairs. Par exemple, dans les tests de mandarin, le taux d'erreur des mots d'Indexts n'était que de 1,3%, ce qui est bien inférieur aux performances d'autres modèles, montrant sa forte précision et sa stabilité. Dans le même temps, dans l'évaluation de la qualité sonore, le score MOS d'Indexts a également atteint 4.01, montrant son excellente qualité sonore et son ton.
Avec l'avancement continu de la technologie et l'expansion des scénarios d'application, la publication d'indexts marque l'avancement de la technologie de texte vocale à un niveau supérieur. Pour plus d'informations sur le système, les utilisateurs peuvent contacter l'équipe concernée pour une expérience utilisateur détaillée et un support technique.
Adresse du projet: https://github.com/index-tts/index-tts