FCL taco2
1.0.0

Fcl-Taco2のブロック図。ここで、デコーダーは各音素内でARモードでMELSpectrogramsを生成し、すべての音素に対して共有されます。
ljspeechをダウンロードしてください
ダウンロードしたljspeech-1.1.tar.bz2から/xx/ljspeech-1.1への開梱
モントリオール強制アライナーツールを使用して、強制アライメント情報を取得します。または、アライメント結果をダウンロードしてから、 /xx /textgridに展開できます
データセットを事前に処理して、メルセプレクトログラム、音素期間、ピッチ、エネルギー、音素シーケンスを抽出します。
python preprocessing.py --data-root /xx/LJSpeech-1.1 --textgrid-root /xx/TextGrid
教師モデルのトレーニングFCL-TACO2-T:
./teacher_model_training.sh
トレーニング学生モデルFCL-TACO2-S:
./student_model_training.sh
平行波ガンボコーダートレーニング:ここで指示に従ってください。事前に訓練されたPWGボコーダーをダウンロードして、PWGモデルをディレクトリ「VoCoder」の下に配置することもできます。
FCL-TACO2-T評価:
./inference_teacher.sh
FCL-TACO2-S評価:
./inference_student.sh
コードがあなたの研究で使用されている場合は、私たちのレポを主演させて、私たちの論文を引用してください。
@inproceedings{wang2021fcl,
title={Fcl-Taco2: Towards Fast, Controllable and Lightweight Text-to-Speech Synthesis},
author={Wang, Disong and Deng, Liqun and Zhang, Yang and Zheng, Nianzu and Yeung, Yu Ting and Chen, Xiao and Liu, Xunying and Meng, Helen},
booktitle={ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={5714--5718},
year={2021},
organization={IEEE}
}