Acoustique-fastSpeech2 (coutume)
Performance raisonnable en utilisant l'apprentissage du transfert pour la personnalisation avec de petites quantités de données
Fournir des API qui peuvent être créées avec des amendes dans les ensembles de données coréens en temps réel
Modification du code du modèle Selon Fine-tune
Prétraitement facile, train, synthèse à travers le script shell
Fournir une image Docker unique
Il correspond au nom de fichier de FastSpeech2 et HIFI-AG pré-formé CKPT et le conserve dans chaque modèle.
(FastSpeech2: 30 000 étapes Apprentissage / Hifi -Gan -Jungil King's Official Preted-University -University)
Pour l'apprentissage et la synthèse, nous chargeons et exécutons des images Docker qui contiennent tous les packages dépendants.
docker pull hws0120/e2e_speech_synthesis
Run_fs2_preprocessing.sh Les étapes sont connectées à Docker avec une commande conda et installe le package Python Jamo.
conda activate aligner
pip install jamo
Fin de l'environnement virtuel pour effectuer RUN_FS2_TRAIN ou Synthesis.
conda activate base
Si vous rencontrez tous les éléments ci-dessus, exécutez le script shell pour extraire le MFA.
sh run_FS2_preprocessing.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
Crée avec succès un TextGrid pour quitter l'environnement virtuel et exécuter le script d'apprentissage.
sh run_FS2_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
Lorsque l'apprentissage FastSpeech2 5000 étape est terminé, exécutez le script HIFI-AG.
sh run_HiFi-GAN_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
Lorsqu'un modèle appris dans le dossier CKPT est prêt, exécutez un script pour la synthèse.
sh run_FS2_synthesize.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
Chaque conteneur est établi dans le processus d'apprentissage et de synthèse et le processus comme indiqué.
Si vous avez un point de contrôle HIFI-GAN approprié, vous pouvez omettre l'apprentissage de Hifi-Gan.