FlashSpeech
1.0.0
Implémentation du flashspeech. Pour tous les détails, consultez notre article accepté sur ACM MM 2024: FlashSpeech: synthèse de la parole efficace à tirs zéro.
bash env.shaccelerate d'Amphion par lightning car j'ai rencontré des problèmes similaires (problème connexe). L'entraînement avec lightning est plus rapide. ns2dataset.py en fonction de vos données.bash egs/tts/NaturalSpeech2/run_train.shRemarques importantes :
Choisissez la configuration :
***_s1 ou ***_s2 en fonction de l'étape de formation.Modifier le codec du modèle :
models/tts/naturalspeech2/flashspeech.py , mettez à jour le codec vers le vôtre.self.latent_norm pour normaliser le codec latente à l'écart type. (Cette étape est cruciale pour la formation du modèle de cohérence.)Configuration de l'étape 2 :
models/tts/naturalspeech2/flashspeech_trainer_stage2.py , définissez les poids initiaux obtenus à partir de l'entraînement de l'étape 1.Développement de l'étape 3 :
Organisez davantage la structure du projet et complétez le code restant.
Un merci spécial à Amphion , car notre base de code est principalement empruntée à Amphion.
Merci d'utiliser FlashSpeech!