CDFSE_FastSpeech2
1.0.0
이 repo에는 Ming024/FastSpeech2를 기반으로 구현되는 텍스트 음성 연사 합성에 제로 샷 스피커 적응을위한 내용 의존적 세분화 스피커 임베딩 "이 논문과 함께 코드가 포함되어 있습니다 (많은 감사합니다!).
2022-06-15 업데이트 :이 작업은 Interspeech 2022에 수락되었습니다.
pip3 install -r requirements.txt자세한 내용은 Ming024/Fastspeech2를 참조하십시오.
예를 들어,
python3 prepare_align.py config/AISHELL3/preprocess.yaml그런 다음 TextGrid 파일을 다운로드하거나 MFA를 사용하여 코퍼스를 정렬하고 preprocessed_data/aishell3/textgrid/와 같이 [preprocessed_data_path]에 TextGrid 파일을 넣습니다.
마지막으로 전처리 스크립트를 실행하십시오
python3 preprocess.py config/AISHELL3/preprocess.yaml게다가:
모델을 훈련하십시오
python3 train.py -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml 언급 : PHNCLS 손실이 무행하거나 눈에 띄지 않는 것으로 보이면 Text/Symbols.py에서 기호 딕트를 수동으로 조정하여 음소 분류가 개선되도록하여 문제를 해결할 수 있습니다.
(선택 사항) Tensorboard를 사용하십시오
tensorboard --logdir output/log/AISHELL3배치 용
python3 synthesize.py --source synbatch_chinese.txt --restore_step 250000 --mode batch -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml 싱글의 경우
# For Mandarin
python3 synthesize.py --text "清华大学人机语音交互实验室,聚焦人工智能场景下的智能语音交互技术研究。 " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml
# For English
python3 synthesize.py --text " Human Computer Speech Interaction Lab at Tsinghua University, targets artificial intelligence technologies for smart voice user interface. " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml @misc{zhou2022content,
title={Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis},
author={Zhou, Yixuan and Song, Changhe and Li, Xiang and Zhang, Luwen and Wu, Zhiyong and Bian, Yanyao and Su, Dan and Meng, Helen},
year={2022},
eprint={2204.00990},
archivePrefix={arXiv},
primaryClass={eess.AS}
}