Téléchargement FlashSpeech - Téléchargement du code source FlashSpeech

FlashSpeech

Code Source AI

1.0.0

Télécharger

Flashspeech

Implémentation du flashspeech. Pour tous les détails, consultez notre article accepté sur ACM MM 2024: FlashSpeech: synthèse de la parole efficace à tirs zéro.

Avis

Ce projet est une version modifiée basée sur NaturalSpeech2 d'Amphion en raison de l'utilisation de certains outils Microsoft internes dans le code d'origine.
Configuration de l'environnement :
```
bash env.sh
```
J'ai remplacé accelerate d'Amphion par lightning car j'ai rencontré des problèmes similaires (problème connexe). L'entraînement avec lightning est plus rapide.

Préparation des données

Modifiez ns2dataset.py en fonction de vos données.
Cette version a été testée sur l'ensemble de données Libritts . Assurez-vous que vous avez préparé les données suivantes:
- Pas
- Code
- Phonème
- Durée

Entraînement

Exécutez le script d'entraînement :

bash egs/tts/NaturalSpeech2/run_train.sh

Remarques importantes :

Choisissez la configuration :
- Vous pouvez sélectionner les fichiers de configuration ***_s1 ou ***_s2 en fonction de l'étape de formation.
Modifier le codec du modèle :
- Dans models/tts/naturalspeech2/flashspeech.py , mettez à jour le codec vers le vôtre.
- Ajustez self.latent_norm pour normaliser le codec latente à l'écart type. (Cette étape est cruciale pour la formation du modèle de cohérence.)
Configuration de l'étape 2 :
- Dans models/tts/naturalspeech2/flashspeech_trainer_stage2.py , définissez les poids initiaux obtenus à partir de l'entraînement de l'étape 1.
Développement de l'étape 3 :
- Le code de l'étape 3 n'est pas encore publié. Cependant, vous pouvez vous référer à la formation de cohérence de l'étape 1 pour la mettre en œuvre.