gmvae_tacotron Téléchargement - gmvae_tacotron CODE Téléchargement du code

gmvae_tacotron

Code Source AI

1.0.0

Télécharger

Gmvae tacotron-2:

Tensorflow Implémentation non officielle de la modélisation générative hiérarchique pour la synthèse de la parole contrôlable

Structure du référentiel:

 Tacotron-2
├── datasets
├── LJSpeech-1.1	(0)
│   └── wavs
├── logs-Tacotron	(2)
│   ├── mel-spectrograms
│   ├── plots
│   ├── pretrained
│   └── wavs
├── papers
├── tacotron
│   ├── models
│   └── utils
├── tacotron_output	(3)
│   ├── eval
│   ├── gta
│   ├── logs-eval
│   │   ├── plots
│   │   └── wavs
│   └── natural
└── training_data	(1)
    ├── audio
    └── mels

L'arbre précédent montre quel est l'état actuel du référentiel.

Étape (0) : Obtenez votre ensemble de données, ici j'ai défini les exemples de LjSpeech .
Étape (1) : prétraitez vos données. Cela vous donnera le dossier Training_data .
Étape (2) : Formez votre modèle de tacotron. Donne le dossier logs-tacotron .
Étape (3) : synthétiser / évaluer le modèle de tacotron. Donne le dossier Tacotron_Output .

Exigences

Tout d'abord, vous devez installer Python 3.5 avec TensorFlow v1.6.

Ensuite, vous pouvez installer les exigences:

pip install -r exigences.txt

autre:

pip3 install -r exigences.txt

Ensemble de données:

Ce repo a testé sur l'ensemble de données LJSpeech, qui a près de 24 heures d'enregistrement vocal unique de l'actrice unique.

Prétraitement

Avant d'exécuter les étapes suivantes, assurez-vous que vous êtes dans le dossier Tacotron-2

CD Tacotron-2

Le prétraitement peut alors être commencé à utiliser:

Python Preprocess.py

ou

Python3 Preprocess.py

L'ensemble de données peut être choisi à l'aide de l'argument --dataset . La valeur par défaut est ljspeech .

Entraînement:

Le modèle de prédiction des fonctionnalités peut être formé en utilisant:

Python Train.py --model = 'Tacotron'

ou

python3 train.py --model = 'tacotron'

Synthèse

Il existe trois types de synthèses de spectrogrammes MEL pour le réseau de prédiction du spectrogramme (Tacotron):

Évaluation (synthèse sur les phrases personnalisées). C'est ce que nous utiliserons généralement après avoir un modèle complet.

Python synthesize.py --model = 'tacotron' --mode = 'eval' --reference_audio = 'Ref_1.wav'

ou

python3 synthesize.py --model = 'tacotron' --mode = 'ev' --reference_audio = 'ref_1.wav'

Note:

Cette implémentation n'a pas été complètement testée pour tous les scénarios, mais la formation et la synthèse avec le fonctionnement audio de référence.
Bien qu'il ne soit testé que sur synthétiser sans GTA et avec le mode eval .
Après la formation de 250k étape avec 32 lots sur LJSpeech, l'erreur KL s'est installée près de zéro (environ 0,001) qui n'obtient toujours pas de bon transfert de style et de bon style, peut être dû au fait que ce modèle formé sur le LJSpeech qui n'est pas tout à fait expressifs de données et à Blizzard 2013 voice dataset , bien que l'auteur de l'article de l'article de l'article.
Dans mes tests, je n'ai pas obtenu de bons résultats jusqu'à présent du côté transfert de style peut être un ajustement plus ajusté, cette implémentation facilement intégrée à wavenet ainsi qu'à WaveRNN .
N'hésitez pas à suggérer certains changements ou à mieux augmenter les relations publiques.

Modèle et échantillons pré-entraînés:

FAIRE

Références et ressources:

Implémentation de tacotron originale de TensorFlow
Papier tacotron original
Modèles basés sur l'attention pour la reconnaissance vocale
Synthèse TTS naturelle en conditionnant les prédictions du wavenet sur les spectocogrants MEL
R9Y9 / Tacotron-2
Yanggeng1995 / VAE_TACOTRON

Travail en cours

Développer

Informations supplémentaires