การดำเนินการตามคำสั่ง สำหรับรายละเอียดทั้งหมดตรวจสอบบทความของเราที่ได้รับการยอมรับจาก ACM MM 2023: Comospeech: การพูดแบบขั้นตอนเดียวและการสังเคราะห์เสียงร้องเพลงผ่านแบบจำลองความสอดคล้อง
ผู้เขียน : Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo
2024-04-26
2023-12-01
2023-11-30
2023-10-21
หน้าสาธิต : ลิงค์
แบบจำลองความน่าจะเป็นของ Denoising Diffusion (DDPMS) ได้แสดงประสิทธิภาพที่มีแนวโน้มสำหรับการสังเคราะห์คำพูด อย่างไรก็ตามจำเป็นต้องมีขั้นตอนการวนซ้ำจำนวนมากเพื่อให้ได้คุณภาพตัวอย่างสูงซึ่ง จำกัด ความเร็วการอนุมาน การรักษาคุณภาพตัวอย่างในขณะที่เพิ่มความเร็วในการสุ่มตัวอย่างได้กลายเป็นงานที่ท้าทาย ในบทความนี้เราเสนอวิธีการสังเคราะห์คำพูดที่ใช้ตามคำพูด ของ MO del , comospeech ซึ่งบรรลุการสังเคราะห์คำพูดผ่านขั้นตอนการสุ่มตัวอย่างการแพร่กระจายครั้งเดียวในขณะที่บรรลุคุณภาพเสียงสูง ข้อ จำกัด ที่สอดคล้องกันถูกนำไปใช้เพื่อกลั่นแบบจำลองความสอดคล้องจากแบบจำลองครูที่ได้รับการออกแบบมาอย่างดีซึ่งในที่สุดก็ให้ประสิทธิภาพที่เหนือกว่าใน comospeech กลั่น การทดลองของเราแสดงให้เห็นว่าด้วยการสร้างการบันทึกเสียงโดยขั้นตอนการสุ่มตัวอย่างเดียว comospeech จะได้รับความเร็วการอนุมานเร็วกว่า 150 เท่าเร็วกว่าเวลาจริงใน Nvidia A100 GPU เดียวซึ่งเทียบได้กับ FastSpeech2 ในขณะเดียวกันการประเมินวัตถุประสงค์และอัตนัยเกี่ยวกับการสังเคราะห์เสียงและการร้องเพลงการร้องเพลงแสดงให้เห็นว่าแบบจำลองครูที่เสนอให้คุณภาพเสียงที่ดีที่สุดและการสุ่มตัวอย่างแบบขั้นตอนเดียวทำให้เกิดความเร็วในการอนุมานที่ดีที่สุดด้วยคุณภาพเสียงที่ดีขึ้น
สร้างรหัส monotonic_align (cython):
cd model/monotonic_align ; python setup.py build_ext --inplace ; cd ../.. เรียกใช้ inference.py สคริปต์โดยการจัดหาพา ธ ไปยังไฟล์ข้อความเส้นทางไปยังจุดตรวจสอบจำนวนการสุ่มตัวอย่าง:
python inference.py -f < text file > -c < checkpoint > -t < sampling steps > ตรวจสอบโฟลเดอร์ที่ out ว่าเสียงที่สร้างขึ้น โปรดทราบว่าในไฟล์ params ครู = จริงสำหรับโมเดลครูของเราเท็จมีไว้สำหรับ comospeech ของเรา นอกจากนี้เรายังใช้นักร้องเดียวกันใน Grad-TTS คุณสามารถดาวน์โหลดและใส่ลงในโฟลเดอร์ Checkpts
เราใช้ชุดข้อมูล LJSpeech และติดตามการแยกรถไฟ/ทดสอบ/วาลใน FastSpeech2 คุณสามารถเปลี่ยนการแยกในโฟลเดอร์ FS2_TXT จากนั้นเรียกใช้ Script train.py
python train.py โปรดทราบว่าในไฟล์ params ครู = จริงสำหรับโมเดลครูของเราเท็จมีไว้สำหรับ comospeech ของเรา ในขณะที่การฝึกอบรม comospeech ไดเรกทอรีจุดตรวจสอบครูควรจัดให้
จุดตรวจที่ได้รับการฝึกอบรมเกี่ยวกับ LJSpeech สามารถดาวน์โหลดได้จากที่นี่
ฉันขอขอบคุณผู้เขียนของผู้สำเร็จการศึกษาเนื่องจากฐานรหัสของเราส่วนใหญ่ยืมมาจาก Grad-TTS
คุณสามารถส่งคำขอดึงหรือแบ่งปันความคิดกับฉันได้ ข้อมูลติดต่อ: Zhen Ye ([email protected])