
Diagram blok FCL-TACO2, di mana dekoder menghasilkan Mel-spectrograms dalam mode AR dalam setiap fonem dan dibagikan untuk semua fonem.
Unduh ljspeech
Unpack diunduh ljspeech-1.1.tar.bz2 ke /xx/ljspeech-1.1
Dapatkan informasi penyelarasan paksa dengan menggunakan alat Aligner Montreal Forced. Atau Anda dapat mengunduh hasil penyelarasan kami, kemudian buka /xx /textgrid
Preprocess Dataset untuk mengekstraksi Mel-spectrograms, durasi fonem, pitch, energi dan urutan fonem dengan:
python preprocessing.py --data-root /xx/LJSpeech-1.1 --textgrid-root /xx/TextGrid
Pelatihan Model Guru FCL-TACO2-T:
./teacher_model_training.sh
Pelatihan Model Siswa FCL-TACO2-S:
./student_model_training.sh
Pelatihan Vokoder Parallel-Wavegan: Ikuti instruksi di sini. Anda juga dapat mengunduh Vocoder PWG yang sudah terlatih, dan meletakkan model PWG di bawah direktori "Vocoder".
Evaluasi FCL-TACO2-T:
./inference_teacher.sh
Evaluasi FCL-TACO2-S:
./inference_student.sh
Jika kode digunakan dalam penelitian Anda, silakan bintangi repo kami dan kutip makalah kami:
@inproceedings{wang2021fcl,
title={Fcl-Taco2: Towards Fast, Controllable and Lightweight Text-to-Speech Synthesis},
author={Wang, Disong and Deng, Liqun and Zhang, Yang and Zheng, Nianzu and Yeung, Yu Ting and Chen, Xiao and Liu, Xunying and Meng, Helen},
booktitle={ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={5714--5718},
year={2021},
organization={IEEE}
}