Téléchargement End to End TTS Fine Tune - End to End TTS Fine Tune Téléchargement du code source

Télécharger

TTS de bout en bout

Ce projet vise à développer le système TTS de « AI ASSISTANT pour les seniors ». Vous pouvez créer un assistant d'intelligence artificielle avec la voix de la famille ou des amis et des amoureux avec seulement 5 minutes d'enregistrement vocal.
Afin de faire face au haut-parleur AI qui nécessite une génération en temps réel, nous avons adopté le modèle acoustique non autorégressif FastSpe2 et le modèle vocodeur basé sur le GAN HIFI-AG pour considérer la qualité et la vitesse de production.
Des douanes supplémentaires ont été réalisées pour améliorer les performances du multi-haut-parleurs.
Ce référentiel est configuré pour simplement effectuer le processus d'apprentissage et de création en utilisant le script shell pour configurer le Vector Multi haut-parleur D-Vector FastSpeech2 et les modèles HIFI-AG pour leur permettre de pouvoir des amendes.
Pour fournir des TTS réels dans l'application, utilisez FastAPI pour configurer le serveur et lier le backend.

Acoustique-fastSpeech2 (coutume)
Performance raisonnable en utilisant l'apprentissage du transfert pour la personnalisation avec de petites quantités de données
Fournir des API qui peuvent être créées avec des amendes dans les ensembles de données coréens en temps réel

Selon le fine_tune_transcript.txt qui appartient au dossier de l'ensemble de données, enregistrez 100 phrases avec le numéro avec un smartphone et convertissez le fichier M4A en un fichier WAV avec un taux d'échantillonnage de 16000. (FFMPEG)

Comme le montre la figure, 100 fichiers WAV convertis sont ajoutés à votre dossier initial.

Modification du code du modèle Selon Fine-tune
- Modification et intégration FastSpeech2 et Hifi-Gan
- L'ensemble de données, le CKPT et le répertoire des résultats sont divisés en répertoire de niveau supérieur par ensemble de données
Prétraitement facile, train, synthèse à travers le script shell
- En modifiant le répertoire de l'ensemble de données
Fournir une image Docker unique
- Fournir des images qui peuvent être effectuées immédiatement sans ajouter des packages de dépendance supplémentaires complexes
- Importez la dernière image via le lien Docker Hub

Il correspond au nom de fichier de FastSpeech2 et HIFI-AG pré-formé CKPT et le conserve dans chaque modèle.
(FastSpeech2: 30 000 étapes Apprentissage / Hifi -Gan -Jungil King's Official Preted-University -University)
Pour l'apprentissage et la synthèse, nous chargeons et exécutons des images Docker qui contiennent tous les packages dépendants.
```
 docker pull hws0120/e2e_speech_synthesis 
```
Run_fs2_preprocessing.sh Les étapes sont connectées à Docker avec une commande conda et installe le package Python Jamo.
```
 conda activate aligner
pip install jamo
```
Fin de l'environnement virtuel pour effectuer RUN_FS2_TRAIN ou Synthesis.
```
 conda activate base
```