FastSpeech2 Download - FastSpeech2 Source Téléchargement

FastSpeech2

Code Source AI

1.0.0

Télécharger

FastSpeech 2

Implémentation non officielle Pytorch de FastSpeech 2: texte de bout en bout rapide et de haute qualité à la parole . Ce repo utilise l'implémentation FastSpeech de ESPNET comme base. Dans cette implémentation, j'ai essayé de reproduire les détails du papier exact, mais une certaine modification requise pour un meilleur modèle, ce repo s'ouvre pour toute suggestion et amélioration. Ce repo utilise le prétraitement du Tacotron 2 de Nvidia pour le prétraitement audio et Melgan comme vocoder.

Démo:

Exigences :

Tout le code écrit en Python 3.6.2 .

Installer Pytorch

Avant d'installer Pytorch, veuillez vérifier votre version CUDA en exécutant la commande suivante: nvcc --version

 pip install torch torchvision

Dans ce dépôt, j'ai utilisé Pytorch 1.6.0 pour la fonction torch.bucketize qui n'est pas présente dans les versions précédentes de Pytorch.

Installation d'autres exigences:

 pip install -r requirements.txt

Pour utiliser Tensorboard Installer tensorboard version 1.14.0 séparément avec tensorflow (1.14.0)

Pour le prétraitement:

Le dossier filelists contient des fichiers de données LJSpeech traités MFA (MotReal Force Aligner), vous n'avez donc pas besoin d'aligner le texte avec l'audio (pour la durée d'extrait) pour l'ensemble de données LJSpeech. Pour un autre ensemble de données, suivez l'instruction ici. Pour d'autres prétraitements Exécuter la commande suivante:

 python .nvidia_preprocessing.py -d path_of_wavs

Pour trouver le min et le max de F0 et de l'énergie

 python .compute_statistics.py

Mettez à jour ce qui suit dans hparams.py par min et max de F0 et de l'énergie

 p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy

Pour la formation

 python train_fastspeech.py --outdir etc -c configs/default.yaml -n "name"

Pour l'inférence

Actuellement, seuls la synthèse basée sur les phonèmes est soutenue.

 python .inference.py -c .configsdefault.yaml -p .checkpointsfirst_1ts_version2_fastspeech_fe9a2c7_7k_steps.pyt --out output --text "ModuleList can be indexed like a regular Python list but modules it contains are properly registered."

Pour l'exportation de TorchScript

 python export_torchscript.py -c configs/default.yaml -n fastspeech_scrip --outdir etc

Point de contrôle et échantillons:

Point de contrôle Trouver ici
Pour les échantillons, vérifiez un échantillon sample .

Tensorboard

Entraînement :
Tensorboard
Validation:

Note

Le codage de ce dépôt se fait à peu près juste pour réorganiser le papier et l'objectif d'expérimentation. Besoin d'un nettoyage et d'une opyimisation de code pour une meilleure utilisation.
Actuellement, ce repo produit un audio de bonne qualité mais il est toujours en WIP, de nombreuses améliorations nécessaires.
La courbe de perte pour F0 est assez élevée.
J'utilise F0 brut et l'énergie pour former un modèle, mais nous pouvons également utiliser la normalisation du F0 et de l'énergie pour une formation stable.
Utilisation Postnet pour une meilleure qualité audio.
Pour un clonage vocal ou un texte plus complet et plus fin