Tensorflow Implémentation non officielle de la modélisation générative hiérarchique pour la synthèse de la parole contrôlable
Tacotron-2
├── datasets
├── LJSpeech-1.1 (0)
│ └── wavs
├── logs-Tacotron (2)
│ ├── mel-spectrograms
│ ├── plots
│ ├── pretrained
│ └── wavs
├── papers
├── tacotron
│ ├── models
│ └── utils
├── tacotron_output (3)
│ ├── eval
│ ├── gta
│ ├── logs-eval
│ │ ├── plots
│ │ └── wavs
│ └── natural
└── training_data (1)
├── audio
└── mels
L'arbre précédent montre quel est l'état actuel du référentiel.
Tout d'abord, vous devez installer Python 3.5 avec TensorFlow v1.6.
Ensuite, vous pouvez installer les exigences:
pip install -r exigences.txt
autre:
pip3 install -r exigences.txt
Ce repo a testé sur l'ensemble de données LJSpeech, qui a près de 24 heures d'enregistrement vocal unique de l'actrice unique.
Avant d'exécuter les étapes suivantes, assurez-vous que vous êtes dans le dossier Tacotron-2
CD Tacotron-2
Le prétraitement peut alors être commencé à utiliser:
Python Preprocess.py
ou
Python3 Preprocess.py
L'ensemble de données peut être choisi à l'aide de l'argument --dataset . La valeur par défaut est ljspeech .
Le modèle de prédiction des fonctionnalités peut être formé en utilisant:
Python Train.py --model = 'Tacotron'
ou
python3 train.py --model = 'tacotron'
Il existe trois types de synthèses de spectrogrammes MEL pour le réseau de prédiction du spectrogramme (Tacotron):
Python synthesize.py --model = 'tacotron' --mode = 'eval' --reference_audio = 'Ref_1.wav'
ou
python3 synthesize.py --model = 'tacotron' --mode = 'ev' --reference_audio = 'ref_1.wav'
Note:
eval .Blizzard 2013 voice dataset , bien que l'auteur de l'article de l'article de l'article.wavenet ainsi qu'à WaveRNN .FAIRE
Travail en cours