Robust_Fine_Grained_Prosody_Control
1.0.0
엔드 투 엔드 언어 합성의 강력하고 세분화 된 프로디 제어의 Pytorch 구현 (비공식)
이 구현은 Libritts 데이터 세트를 사용합니다.
git clone https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control.gitcd Robust_Fine_Grained_Prosody_Controlgit submodule init; git submodule updatesed -i -- 's,/home/keon/speech-datasets/LibriTTS_preprocessed/train-clean-100/,your_libritts_dataset_folder/,g' filelists/*.txthparams.py 에서 load_mel_from_disk=True 설정하고 Mel-Spectrogram 경로를 업데이트하십시오pip install -r requirements.txt python train.py --output_directory=outdir --log_directory=logdirtensorboard --logdir=outdir/logdir (TBD)
python inference.py -c checkpoint/path -r reference_audio/wav/path -t "synthesize text"python inference_all.py -c checkpoint/path -r reference_audios/dir/pathNB NB 오디오 합성에 대한 Mel-spectrogram을 수행 할 때, Tacotron 2와 Mel Decoder가 동일한 Mel-spectrogram 표현에 대해 훈련되었는지 확인하십시오.
@misc{lee2021robust_fine_grained_prosody_control,
author = {Lee, Keon},
title = {Robust_Fine_Grained_Prosody_Control},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control}}
}
음성 합성을위한 실시간 흐름 기반 생성 네트워크보다 더 빠른 WaveGlow
NV-Wavenet은 실시간 Wavenet보다 빠릅니다.
이 구현은 다음 저장소에서 코드를 사용합니다 : nvidia/tacotron-2, kinglittleq/gst-tacotron
우리는 신문 작가, 특히 Younggun Lee와 Taesu Kim에게 감사합니다.