download gmvae_tacotron - gmvae_tacotron do download do código -fonte

gmvae_tacotron

Código-Fonte de IA

1.0.0

Baixar

GMVAE Tacotron-2:

Implementação não oficial do tensorflow da modelagem generativa hierárquica para síntese de fala controlável

Estrutura do repositório:

 Tacotron-2
├── datasets
├── LJSpeech-1.1	(0)
│   └── wavs
├── logs-Tacotron	(2)
│   ├── mel-spectrograms
│   ├── plots
│   ├── pretrained
│   └── wavs
├── papers
├── tacotron
│   ├── models
│   └── utils
├── tacotron_output	(3)
│   ├── eval
│   ├── gta
│   ├── logs-eval
│   │   ├── plots
│   │   └── wavs
│   └── natural
└── training_data	(1)
    ├── audio
    └── mels

A árvore anterior mostra o que o estado atual do repositório.

Etapa (0) : Obtenha seu conjunto de dados, aqui defini os exemplos de LJSpeech .
Etapa (1) : Pré -processo seus dados. Isso lhe dará a pasta Training_Data .
Etapa (2) : Treine seu modelo de tacotron. Produz a pasta Logs-Tacotron .
Etapa (3) : sintetize/avalie o modelo do tacotron. Fornece a pasta tacotron_output .

Requisitos

Primeiro, você precisa ter o Python 3.5 instalado junto com o Tensorflow v1.6.

Em seguida, você pode instalar os requisitos:

pip install -r requisitos.txt

outro:

pip3 install -r requisitos.txt

Conjunto de dados:

Este repositório testado no conjunto de dados LJSpeech, que possui quase 24 horas de gravação de voz de atriz única rotulada.

Pré -processamento

Antes de executar as etapas a seguir, verifique se você está dentro da pasta Tacotron-2

CD Tacotron-2

O pré -processamento pode ser iniciado usando:

python preprocess.py

ou

python3 preprocess.py

O conjunto de dados pode ser escolhido usando o argumento -DataSet . O padrão é LJSpeech .

Treinamento:

O modelo de previsão de recursos pode ser treinado usando:

Python Train.py -Model = 'Tacotron'

ou

Python3 Train.py -Model = 'Tacotron'

Síntese

Existem três tipos de síntese de espectrogramas MEL para a rede de previsão do espectrograma (Tacotron):

Avaliação (síntese em frases personalizadas). É isso que normalmente usaremos depois de ter um modelo de fim de ponta completa.

python synthesize.py - -model = 'tacotron' --mode = 'avaliar' --reference_audio = 'ref_1.wav'

ou

python3 synthesize.py - -model = 'tacotron' - -mod = 'avaliar' --reference_audio = 'ref_1.wav'

Observação:

Esta implementação não testada completamente para todos os cenários, mas treinamento e síntese com o trabalho de áudio de referência.
Embora ele tenha testado apenas em sintetizar sem GTA e com o modo eval .
After training 250k step with 32 batch size on LJSpeech, KL error settled down near to zero (around 0.001) still not get good style transfer and control, may be because this model trained on LJSpeech which is not quite expressive datasets and only have 24 hrs of data, it might be produce good result on expressive dataset like Blizzard 2013 voice dataset though author of the paper used 105 hrs of Blizzard Challenge 2013 dataset.
Nos meus testes, não obtive bons resultados até agora no lado da transferência de estilo pode ser mais necessários mais ajustes, essa implementação é facilmente integrada ao wavenet e WaveRNN .
Sinta -se à vontade para sugerir algumas mudanças ou aumentar ainda melhor o RP.

Modelo e amostras pré -tenhadas:

PENDÊNCIA

Referências e recursos:

Implementação original do TensorFlow
Papel Tacotron original
Modelos baseados em atenção para reconhecimento de fala
Síntese natural de TTS, condicionando o wavenet nas previsões de Mel Spectograma
R9Y9/TACOTRON-2
yanggeng1995/vae_tacotron

Trabalho em andamento

Expandir

Informações adicionais