Implementação não oficial do tensorflow da modelagem generativa hierárquica para síntese de fala controlável
Tacotron-2
├── datasets
├── LJSpeech-1.1 (0)
│ └── wavs
├── logs-Tacotron (2)
│ ├── mel-spectrograms
│ ├── plots
│ ├── pretrained
│ └── wavs
├── papers
├── tacotron
│ ├── models
│ └── utils
├── tacotron_output (3)
│ ├── eval
│ ├── gta
│ ├── logs-eval
│ │ ├── plots
│ │ └── wavs
│ └── natural
└── training_data (1)
├── audio
└── mels
A árvore anterior mostra o que o estado atual do repositório.
Primeiro, você precisa ter o Python 3.5 instalado junto com o Tensorflow v1.6.
Em seguida, você pode instalar os requisitos:
pip install -r requisitos.txt
outro:
pip3 install -r requisitos.txt
Este repositório testado no conjunto de dados LJSpeech, que possui quase 24 horas de gravação de voz de atriz única rotulada.
Antes de executar as etapas a seguir, verifique se você está dentro da pasta Tacotron-2
CD Tacotron-2
O pré -processamento pode ser iniciado usando:
python preprocess.py
ou
python3 preprocess.py
O conjunto de dados pode ser escolhido usando o argumento -DataSet . O padrão é LJSpeech .
O modelo de previsão de recursos pode ser treinado usando:
Python Train.py -Model = 'Tacotron'
ou
Python3 Train.py -Model = 'Tacotron'
Existem três tipos de síntese de espectrogramas MEL para a rede de previsão do espectrograma (Tacotron):
python synthesize.py - -model = 'tacotron' --mode = 'avaliar' --reference_audio = 'ref_1.wav'
ou
python3 synthesize.py - -model = 'tacotron' - -mod = 'avaliar' --reference_audio = 'ref_1.wav'
Observação:
eval .Blizzard 2013 voice dataset though author of the paper used 105 hrs of Blizzard Challenge 2013 dataset.wavenet e WaveRNN .PENDÊNCIA
Trabalho em andamento