Implementación no oficial de TensorFlow de modelado generativo jerárquico para síntesis de habla controlable
Tacotron-2
├── datasets
├── LJSpeech-1.1 (0)
│ └── wavs
├── logs-Tacotron (2)
│ ├── mel-spectrograms
│ ├── plots
│ ├── pretrained
│ └── wavs
├── papers
├── tacotron
│ ├── models
│ └── utils
├── tacotron_output (3)
│ ├── eval
│ ├── gta
│ ├── logs-eval
│ │ ├── plots
│ │ └── wavs
│ └── natural
└── training_data (1)
├── audio
└── mels
El árbol anterior muestra el estado actual del repositorio.
Primero, debe tener instalado Python 3.5 junto con TensorFlow V1.6.
A continuación, puede instalar los requisitos:
PIP install -r requisitos.txt
demás:
PIP3 Instalar -r requisitos.txt
Este repositorio se probó en el conjunto de datos LJSPeech, que tiene casi 24 horas de grabación de voz de actriz individual etiquetada.
Antes de ejecutar los siguientes pasos, asegúrese de estar dentro de la carpeta Tacotron-2
CD Tacotron-2
El preprocesamiento se puede comenzar a usar:
Python Preprocess.py
o
python3 preprocess.py
El conjunto de datos se puede elegir utilizando el argumento --dataSet . El valor predeterminado es ljspeech .
El modelo de predicción de características puede ser entrenado utilizando:
Python Train.py - -Model = 'Tacotron'
o
Python3 Train.py - -Model = 'Tacotron'
Hay tres tipos de síntesis de espectrogramas MEL para la red de predicción del espectrograma (Tacotron):
Python synthesize.py --model = 'tacotron' --mode = 'eval' --reference_audio = 'ref_1.wav'
o
python3 synthesize.py --model = 'tacotron' --mode = 'eval' --reference_audio = 'ref_1.wav'
Nota:
eval .Blizzard 2013 voice dataset expresivo como el dato de datos Blizzard 2013.wavenet y WaveRNN .HACER
Trabajo en progreso