Acoustic-FastSpeech2 (กำหนดเอง)
ประสิทธิภาพที่สมเหตุสมผลโดยใช้การเรียนรู้การถ่ายโอนเพื่อการปรับเปลี่ยนเป็นส่วนตัวด้วยข้อมูลจำนวนเล็กน้อย
ให้ API ที่สามารถสร้างได้ด้วยการปรับแต่งชุดข้อมูลเกาหลีแบบเรียลไทม์
การปรับเปลี่ยนรหัสโมเดลตามการปรับแต่ง
ประมวลผลล่วงหน้าง่ายรถไฟการสังเคราะห์ผ่านเชลล์สคริปต์
ให้ภาพนักเทียบท่าที่ไม่ซ้ำกัน
มันตรงกับชื่อไฟล์ของ FastSpeech2 และ HIFI-GAN ที่ผ่านการฝึกอบรมมาก่อนและเก็บไว้ในแต่ละรุ่น
(FastSpeech2: 30,000 ขั้นตอนการเรียนรู้ / hifi -gan -gan -jungil อย่างเป็นทางการของ King Pretated -University -University)
สำหรับการเรียนรู้และการสังเคราะห์เราโหลดและดำเนินการอิมเมจนักเทียบท่าที่มีแพ็คเกจขึ้นอยู่กับทั้งหมด
docker pull hws0120/e2e_speech_synthesis
Run_fs2_preprocessing.sh ขั้นตอนเชื่อมต่อกับ Docker ด้วยคำสั่ง conda และติดตั้งแพ็คเกจ Python Jamo
conda activate aligner
pip install jamo
จุดสิ้นสุดของสภาพแวดล้อมเสมือนจริงเพื่อดำเนินการ run_fs2_train หรือการสังเคราะห์
conda activate base
หากคุณพบรายการทั้งหมดข้างต้นให้เรียกใช้เชลล์สคริปต์เพื่อแยก MFA
sh run_FS2_preprocessing.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
ประสบความสำเร็จในการสร้าง TextGrid เพื่อออกจากสภาพแวดล้อมเสมือนจริงและเรียกใช้สคริปต์การเรียนรู้
sh run_FS2_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
เมื่อ FastSpeech2 5000 การเรียนรู้เสร็จสิ้นให้เรียกใช้สคริปต์ HIFI-GAN
sh run_HiFi-GAN_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
เมื่อโมเดลที่เรียนรู้ในโฟลเดอร์ CKPT พร้อมให้เรียกใช้สคริปต์สำหรับการสังเคราะห์
sh run_FS2_synthesize.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
แต่ละคอนเทนเนอร์ถูกสร้างขึ้นในกระบวนการเรียนรู้และการสังเคราะห์และกระบวนการดังที่แสดง
หากคุณมีจุดตรวจสอบ HIFI-GAN ที่เหมาะสมคุณสามารถละเว้นการเรียนรู้ HIFI-GAN