Robust_Fine_Grained_Prosody_Control Download - Robust_Fine_Grained_Prosody

Robust_Fine_Grained_Prosody_Control

Código-Fonte de IA

1.0.0

Baixar

Controle de prosódia robusta e refinada da síntese de fala de ponta a ponta (com o Waveglow)

Implementação de Pytorch de controle prosódio robusto e refinado da síntese de fala de ponta a ponta (não oficial)

Esta implementação usa o conjunto de dados Libritts.

Notas

Dev Branch: Tacotron2 com multispico (incorporação do alto -falante). As informações do alto -falante são consumidas apenas pelo módulo decodificador, e o módulo de atenção não vê nada (como intenção dos autores).
Text_side Branch: Implementação do modelo de controle de prosódia do lado de texto.
O controle da prosódia do lado da fala e a normalização da prosódia não são implementados na versão atual, mas você pode simplesmente adicioná-los na parte superior das ramificações acima.

Pré-requisitos

Nvidia gpu + cuda cudnn

Configurar

Baixar e extrair o conjunto de dados Libritts
Clone este repositório: git clone https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control.git
CD neste repositório: cd Robust_Fine_Grained_Prosody_Control
Inicialize o submódulo: git submodule init; git submodule update
ATUALIZAÇÃO .WAV PATHES: sed -i -- 's,/home/keon/speech-datasets/LibriTTS_preprocessed/train-clean-100/,your_libritts_dataset_folder/,g' filelists/*.txt
- Como alternativa, defina load_mel_from_disk=True em hparams.py e atualize os caminhos de espectrograma de mel
Instale o Pytorch 1.0
Instale o Apex
Instale requisitos do Python ou construa a imagem do Docker
- Instale os requisitos do Python: pip install -r requirements.txt

Treinamento

python train.py --output_directory=outdir --log_directory=logdir
(Opcional) tensorboard --logdir=outdir/logdir

Treinamento usando um modelo pré-treinado

(TBD)

Multi-GPU (distribuído) e treinamento automático de precisão mista

Não suportado na implementação atual.

Inferência

Amostra única: python inference.py -c checkpoint/path -r reference_audio/wav/path -t "synthesize text"
Multi Amostras: python inference_all.py -c checkpoint/path -r reference_audios/dir/path

NB Ao executar a síntese de espectro-espectro na síntese de áudio, verifique se o tacotron 2 e o decodificador MEL foram treinados na mesma representação de espectrograma MEL.

Citação

 @misc{lee2021robust_fine_grained_prosody_control,
  author = {Lee, Keon},
  title = {Robust_Fine_Grained_Prosody_Control},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control}}
}