Projet d'alignement de texte vocal
Aperçu du projet
Ce projet explore et met en œuvre diverses techniques d'alignement de texte vocale (TTS), visant à améliorer la qualité et l'efficacité des systèmes TTS. Notre travail s'étend sur plusieurs approches, chacune abordant différents aspects du défi d'alignement.
Structure du projet
Ce référentiel est organisé en trois branches principales, chacune représentant une approche distincte de l'alignement TTS:
MoBoAligner
- Statut : terminé, pour référence uniquement
- Description : Mise en œuvre non officielle du "Moboalignor: un modèle d'alignement neuronal pour les TT non autorégressifs avec la recherche de limites monotoniques"
- Objectif : Apprentissage et comparaison de base
- Limitation : pas adapté aux applications à grande échelle en raison de contraintes de durée maximale
RoMoAligner
- Statut : le développement s'est arrêté, pour référence uniquement
- Description : Tentative d'amélioration expérimentale combinant un alignement approximatif avec MoboAligner
- Objectif : Explorez les techniques d'apprentissage auto-supervisées dans l'alignement TTS
- Limitation : les améliorations des performances étaient limitées et ne répondaient pas aux attentes
OTA ? Focus actuel
- Statut : dans la planification active et le développement précoce
- Description : Adaptation de l'alignement «One TTS pour les gouverner tous» (OTA) Méthode pour la modélisation de pause implicite
- Objectif : Développer une solution pour gérer des pauses implicites sans s'appuyer sur des jetons de silence explicites
- Progrès : phase de développement et de planification conceptuel
Focus actuel
Notre objectif principal est sur la branche OTA , où nous explorons des moyens d'adapter la méthode OTA pour améliorer l'alignement, en particulier dans la gestion des pauses implicites dans la parole.
Comment utiliser ce référentiel
- Consultez chaque branche pour des détails de mise en œuvre et des progrès spécifiques.
- Reportez-vous aux réadapases de branche individuelles pour les instructions de configuration et d'utilisation.
- Pour les derniers développements, concentrez-vous sur la branche
OTA .
Contributif
Nous saluons les contributions à l'une de nos succursales. Si vous êtes intéressé à contribuer:
- Vérifiez les problèmes dans la branche pertinente pour les tâches avec lesquelles vous pouvez vous aider.
- Fourk le référentiel et créez une demande de traction avec vos améliorations.
- Pour les changements majeurs, veuillez d'abord ouvrir un problème pour discuter de ce que vous souhaitez changer.
Feuille de route
Remerciements
- Papier d'origine moboaligner
- Papier OTA
Nous apprécions le soutien et l'intérêt de la communauté du TTS et du traitement de la parole dans la progression de cette recherche.