TTS Tacotron Pytorch Télécharger - TTS Tacotron Pytorch CODE SOURCE Téléchargement

TTS Tacotron Pytorch

Code Source AI

1.0.0

Télécharger

Tacotron

Une implémentation Pytorch du réseau de synthèse de la parole Tacotron de Google.

Cette implémentation comprend également l' attention sensible à l'emplacement et les fonctionnalités de jeton d'arrêt de Tacotron 2.

En outre, le modèle est formé sur le jeu de données de la parole LJ, avec un modèle formé fourni.

Des échantillons audio peuvent être trouvés dans le répertoire de résultat.

Introduction

Cette implémentation est basée sur R9Y9 / Tacotron_Pytorch, les principales différences sont:

Ajoute une attention sensible à l'emplacement et le jeton d'arrêt du papier Tacotron 2. Cela peut réduire considérablement le temps et les données nécessaires pour former un modèle.
Supprimez toutes les dépendances TensorFlow que R9Y9 utilise, maintenant elle s'exécute uniquement sur Pytorch et Pytorch .
Ajoute un module de perte et utilise la perte L2 (MSE) au lieu de la perte de L1.
Ajoute un module de chargeur de données.
Incorporez le script de prétraitement des données de discours LJ de Keithito.
Coder l'affacturage et l'optimisation pour un débogage plus facile et s'étendre dans la fourrure.

De plus, certaines différences par rapport au papier tacotron d'origine sont:

Prédire r = 5 cadres hors-put consécutifs non chevauchants à chaque étape de décodeur au lieu de r = 2.
Alimentez toutes les trames R à l'étape d'entrée du décodeur suivant au lieu du dernier cadre des trames R.
Échelle la perte sur les spectrogrammes linéaires prévus afin que les fréquences plus faibles qui correspondent à la parole humaine (0 à 3000 Hz) pèsent plus.
N'a pas utilisé de masque de perte dans l'apprentissage de séquence à la séquence, cela oblige le modèle à apprendre quand arrêter la synthèse.
Désactiver le biais pour l'unité de convolution à 1 dimension dans les modules CBHG. Ces détails de mise en œuvre aident la convergence du modèle.

La qualité audio n'est pas aussi bonne que la démo de Google, mais j'espère que cela s'améliorera finalement. Les demandes de traction sont les bienvenues!

Démarrage rapide

Installation

Clone This Repo: git clone [email protected]:andi611/Tacotron-Pytorch.git
CD dans ce dépôt: cd Tacotron-Pytorch

Installation des dépendances

Installez Python 3.
Installez la dernière version de Pytorch selon votre plateforme. Pour de meilleures performances, installez avec GPU Support (CUDA) si viable. Ce code fonctionne avec Pytorch 0.4 et plus tard.
Installation des exigences:
```
 pip3 install -r requirements.txt
```
AVERTISSEMENT: vous devez installer Torch en fonction de votre plate-forme. Ici, énumérez la version Pytorch utilisée lors de la construction de ce projet.

Entraînement

Téléchargez l'ensemble de données LJ Speech.
- Discours LJ
Vous pouvez utiliser d'autres ensembles de données si vous les convertissez au bon format. Voir Training_data.md pour plus d'informations.
Déballer l'ensemble de données dans ~/Tacotron-Pytorch/data
Après avoir déballé, votre arbre devrait ressembler à ceci pour le discours LJ:
```
 |- Tacotron-Pytorch
	 |- data
		 |- LJSpeech-1.1
			 |- metadata.csv
			 |- wavs
```

Prétraitement de l'ensemble de données LJ Speech et créez des fichiers Meta prêts pour les modèles à l'aide de Preprocess.py:

 python3 preprocess.py --mode make

Après le prétraitement, votre arbre ressemblera à ceci:

 |- Tacotron-Pytorch
	 |- data
		 |- LJSpeech-1.1 (The downloaded dataset)
			 |- metadata.csv
			 |- wavs
		 |- meta (generate by preprocessing)
			 |- meta_text.txt 
			 |- meta_mel_xxxxx.npy ...
			 |- meta_spec_xxxxx.npy ...
		 |- test_transcripts.txt (provided)

Train un modèle en utilisant Train.py
```
 python3 train.py --ckpt_dir ckpt/ --log_dir log/
```
Restaurer la formation d'un point de contrôle précédent:
```
 python3 train.py --ckpt_dir ckpt/ --log_dir log/ --model_name 500000
```
Des hyperparamètres accordables se trouvent dans config.py.
Vous pouvez ajuster ces paramètres et définir en modifiant le fichier, les hyperparamètres par défaut sont recommandés pour la parole LJ.
Moniteur avec Tensorboard (facultatif)
```
 tensorboard --logdir 'path to log_dir'
```
Le formateur déverse l'audio et les alignements toutes les 2000 étapes par défaut. Vous pouvez les trouver dans tacotron/ckpt/ .

Test: Utilisation d'un modèle pré-formé et test.py

Exécutez l'environnement de test avec le mode interactif :

 python3 test.py --interactive --plot --model_name 500000

Exécutez l'algorithme de test sur un ensemble de transcriptions (les résultats peuvent être trouvés dans le répertoire résultat / 500000):
```
 python3 test.py --plot --model_name 500000 --test_file_path ./data/test_transcripts.txt
```

Reconnaissance

Crédits à Ryuichi Yamamoto pour une merveilleuse mise en œuvre en pytorch de Tacotron, sur laquelle ce travail est principalement basé. Ce travail est également inspiré par la mise en œuvre de Pytorch de Nvidia Tacotron 2.