Robust_Fine_Grained_Prosody_Control
1.0.0
Implementación de Pytorch de control de prosodia robusto y de grano fino de la síntesis del habla de extremo a extremo (no oficial)
Esta implementación utiliza el conjunto de datos Libritts.
git clone https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control.gitcd Robust_Fine_Grained_Prosody_Controlgit submodule init; git submodule updatesed -i -- 's,/home/keon/speech-datasets/LibriTTS_preprocessed/train-clean-100/,your_libritts_dataset_folder/,g' filelists/*.txtload_mel_from_disk=True en hparams.py y actualice las rutas de espectrograma MELpip install -r requirements.txt python train.py --output_directory=outdir --log_directory=logdirtensorboard --logdir=outdir/logdir (TBD)
python inference.py -c checkpoint/path -r reference_audio/wav/path -t "synthesize text"python inference_all.py -c checkpoint/path -r reference_audios/dir/pathNB Al realizar el espectrograma MEL a la síntesis de audio, asegúrese de que el tacotrón 2 y el decodificador MEL estuvieran entrenados en la misma representación del espectrograma MEL.
@misc{lee2021robust_fine_grained_prosody_control,
author = {Lee, Keon},
title = {Robust_Fine_Grained_Prosody_Control},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control}}
}
Giro de onda más rápido que la red generativa basada en el flujo en tiempo real para la síntesis del habla
NV Wavenet más rápido que el wavenet en tiempo real.
Esta implementación utiliza el código de los siguientes reposadores: NVIDIA/Tacotron-2, KingLittleq/GST-Tacotron
Estamos agradecidos con los autores de papel, especialmente Younggun Lee y Taesu Kim.