
บล็อกไดอะแกรมของ FCL-TACO2 ซึ่งตัวถอดรหัสสร้าง mel-spectrograms ในโหมด AR ภายในแต่ละฟอนิมและใช้ร่วมกันสำหรับหน่วยเสียงทั้งหมด
ดาวน์โหลด ljSpeech
แกะดาวน์โหลด ljspeech-1.1.tar.bz2 ถึง /xx/ljspeech-1.1
รับข้อมูลการจัดตำแหน่งที่ถูกบังคับโดยใช้เครื่องมือจัดตำแหน่งแบบบังคับมอนทรีออล หรือคุณสามารถดาวน์โหลดผลลัพธ์การจัดตำแหน่งของเราจากนั้นคลายออกไปที่ /xx /textGrid
ประมวลผลชุดข้อมูลเพื่อสกัด mel-spectrograms ระยะเวลาการออกเสียงระยะพิทช์พลังงานและฟอนิมโดย:
python preprocessing.py --data-root /xx/LJSpeech-1.1 --textgrid-root /xx/TextGrid
ครูฝึกอบรมโมเดล FCL-TACO2-T:
./teacher_model_training.sh
การฝึกอบรมนักศึกษาโมเดล FCL-TACO2-S:
./student_model_training.sh
การฝึกอบรม Vovoder คู่ขนาน: ทำตามคำแนะนำที่นี่ นอกจากนี้คุณยังสามารถดาวน์โหลด PWG Vocoder ที่ผ่านการฝึกอบรมมาแล้วและวางโมเดล PWG ภายใต้ไดเรกทอรี "Vocoder"
การประเมิน FCL-TACO2-T:
./inference_teacher.sh
การประเมิน FCL-TACO2-S:
./inference_student.sh
หากใช้รหัสในการวิจัยของคุณโปรดแสดง repo ของเราและอ้างอิงกระดาษของเรา:
@inproceedings{wang2021fcl,
title={Fcl-Taco2: Towards Fast, Controllable and Lightweight Text-to-Speech Synthesis},
author={Wang, Disong and Deng, Liqun and Zhang, Yang and Zheng, Nianzu and Yeung, Yu Ting and Chen, Xiao and Liu, Xunying and Meng, Helen},
booktitle={ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={5714--5718},
year={2021},
organization={IEEE}
}