Robust_Fine_Grained_Prosody_Control 다운로드 Robust_Fine_Grained_Prosody

Robust_Fine_Grained_Prosody_Control

AI 소스 코드

1.0.0

다운로드

엔드 투 엔드 스피치 합성의 강력하고 세밀한 프로디 제어 (Waveglow 포함)

엔드 투 엔드 언어 합성의 강력하고 세분화 된 프로디 제어의 Pytorch 구현 (비공식)

이 구현은 Libritts 데이터 세트를 사용합니다.

메모

Dev Branch : 멀티 스피커가있는 Tacotron2 (스피커 임베딩). 스피커 정보는 디코더 모듈에 의해서만 소비되며주의 모듈은 그 중 어느 것도 보지 못합니다 (저자의 의도로).
Text_side Branch : Text-Side Prosody Control 모델 구현.
Speech-Side Prosody Control 및 Prosody Normalization은 현재 버전으로 구현되지 않지만 위의 분기 위에 추가 할 수 있습니다.

사전 반품

nvidia gpu + cuda cudnn

설정

Libritts 데이터 세트를 다운로드하여 추출하십시오
이 repo를 복제 git clone https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control.git
CD에 CD : cd Robust_Fine_Grained_Prosody_Control
하위 모듈 초기화 : git submodule init; git submodule update
.wav 경로 : sed -i -- 's,/home/keon/speech-datasets/LibriTTS_preprocessed/train-clean-100/,your_libritts_dataset_folder/,g' filelists/*.txt
- 또는 hparams.py 에서 load_mel_from_disk=True 설정하고 Mel-Spectrogram 경로를 업데이트하십시오
Pytorch 1.0을 설치하십시오
Apex를 설치하십시오
파이썬 요구 사항을 설치하거나 Docker 이미지를 빌드하십시오
- 파이썬 요구 사항 설치 : pip install -r requirements.txt

훈련

python train.py --output_directory=outdir --log_directory=logdir
(선택 사항) tensorboard --logdir=outdir/logdir

미리 훈련 된 모델을 사용한 교육

(TBD)

멀티 GPU (배포) 및 자동 혼합 정밀 훈련

현재 구현에서는 지원되지 않습니다.

추론

단일 샘플 : python inference.py -c checkpoint/path -r reference_audio/wav/path -t "synthesize text"
멀티 샘플 : python inference_all.py -c checkpoint/path -r reference_audios/dir/path

NB NB 오디오 합성에 대한 Mel-spectrogram을 수행 할 때, Tacotron 2와 Mel Decoder가 동일한 Mel-spectrogram 표현에 대해 훈련되었는지 확인하십시오.

소환

 @misc{lee2021robust_fine_grained_prosody_control,
  author = {Lee, Keon},
  title = {Robust_Fine_Grained_Prosody_Control},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control}}
}