Robust_Fine_Grained_Prosody_Control Descargar - Robust_Fine_Grained_Prosody

Robust_Fine_Grained_Prosody_Control

Código Fuente de IA

1.0.0

Descargar

Control de prosodia robusta y de grano fino de la síntesis del habla de extremo a extremo (con Glow de onda)

Implementación de Pytorch de control de prosodia robusto y de grano fino de la síntesis del habla de extremo a extremo (no oficial)

Esta implementación utiliza el conjunto de datos Libritts.

Notas

Rama de Dev : Tacotron2 con multiespeaker (incrustación de altavoces). La información del altavoz solo es consumida por el módulo decodificador, y el módulo de atención no ve nada de eso (como intención de los autores).
Text_Side Branch: implementación del modelo de control de prosodia del lado del texto.
El control de la prosodia del lado del habla y la normalización de la prosodia no se implementan en la versión actual, pero simplemente puede agregarlos encima de las ramas anteriores.

Requisitos previos

NVIDIA GPU + CUDA CUDNN

Configuración

Descargue y extraiga el conjunto de datos de Libritts
Clon este repositorio: git clone https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control.git
CD en este repositorio: cd Robust_Fine_Grained_Prosody_Control
Inicializar submódulo: git submodule init; git submodule update
Actualización .wav rutas: sed -i -- 's,/home/keon/speech-datasets/LibriTTS_preprocessed/train-clean-100/,your_libritts_dataset_folder/,g' filelists/*.txt
- Alternativamente, establezca load_mel_from_disk=True en hparams.py y actualice las rutas de espectrograma MEL
Instale Pytorch 1.0
Instalar APEX
Instale los requisitos de Python o la imagen de compilación de Docker
- Instalar requisitos de Python: pip install -r requirements.txt

Capacitación

python train.py --output_directory=outdir --log_directory=logdir
(Opcional) tensorboard --logdir=outdir/logdir

Entrenamiento utilizando un modelo previamente capacitado

(TBD)

Entrenamiento multi-GPU (distribuido) y de precisión mixta automática

No es compatible con la implementación actual.

Inferencia

Muestra única: python inference.py -c checkpoint/path -r reference_audio/wav/path -t "synthesize text"
Muestras multi: python inference_all.py -c checkpoint/path -r reference_audios/dir/path

NB Al realizar el espectrograma MEL a la síntesis de audio, asegúrese de que el tacotrón 2 y el decodificador MEL estuvieran entrenados en la misma representación del espectrograma MEL.

Citación

 @misc{lee2021robust_fine_grained_prosody_control,
  author = {Lee, Keon},
  title = {Robust_Fine_Grained_Prosody_Control},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control}}
}