FCL taco2
1.0.0

FCL-TACO2的框圖,其中解碼器在每個音素中以AR模式生成MEL-SPECTROGRAM,並為所有音素共享。
下載ljspeech
解開下載的LJSpeech-1.1.tar.bz2 to /xx/ljspeech-1.1
使用蒙特利爾強制對準器工具獲得強制對齊信息。或者,您可以下載我們的對齊結果,然後將其解開為 /xx /textgrid
預處理數據集以提取MEL光譜圖,音素持續時間,音調,能量和音素序列:
python preprocessing.py --data-root /xx/LJSpeech-1.1 --textgrid-root /xx/TextGrid
培訓教師模型FCL-TACO2-T:
./teacher_model_training.sh
培訓學生模型FCL-TACO2-S:
./student_model_training.sh
並行沃文輔助培訓:在此處遵循指示。您還可以下載預先訓練的PWG Vocoder,並將PWG模型放在目錄“ Vocoder”下。
FCL-TACO2-T評估:
./inference_teacher.sh
FCL-TACO2-S評估:
./inference_student.sh
如果您的研究中使用了代碼,請出演我們的回購併引用我們的論文:
@inproceedings{wang2021fcl,
title={Fcl-Taco2: Towards Fast, Controllable and Lightweight Text-to-Speech Synthesis},
author={Wang, Disong and Deng, Liqun and Zhang, Yang and Zheng, Nianzu and Yeung, Yu Ting and Chen, Xiao and Liu, Xunying and Meng, Helen},
booktitle={ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={5714--5718},
year={2021},
organization={IEEE}
}