ดาวน์โหลด CoMoSpeech - ดาวน์โหลดซอร์สโค้ด CoMoSpeech

CoMoSpeech

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

ความไม่พอใจ

การดำเนินการตามคำสั่ง สำหรับรายละเอียดทั้งหมดตรวจสอบบทความของเราที่ได้รับการยอมรับจาก ACM MM 2023: Comospeech: การพูดแบบขั้นตอนเดียวและการสังเคราะห์เสียงร้องเพลงผ่านแบบจำลองความสอดคล้อง

ผู้เขียน : Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo

อัปเดต

2024-04-26

เราเสนอ FlashSpeech ซึ่งเป็น synthesizer คำพูดที่มีประสิทธิภาพเป็นศูนย์ตามรูปแบบความสอดคล้องแฝงและการฝึกอบรมที่เป็นปฏิปักษ์ (กระดาษ).

2023-12-01

นอกจากนี้เรายังเสนอเวอร์ชันการแปลงเสียงร้องเพลง (SVC) ที่ออกแบบมาอย่างดีตามโมเดลความสอดคล้อง (รหัส)

2023-11-30

เราพบว่าเสียง Gaussian ที่ไม่มีค่าใช้จ่ายแทนที่จะเป็นก่อนหน้าในระดับบัณฑิตศึกษาสามารถบรรลุประสิทธิภาพที่คล้ายกัน เราปล่อยรหัสใหม่และจุดตรวจ

2023-10-21

เราเพิ่มวิธีการสั่งซื้อครั้งที่ 2 ของ Heun สำหรับแบบจำลองครู (สามารถใช้สำหรับการสุ่มตัวอย่างแบบครูและวิถี ODE ที่ดีกว่าสำหรับการกลั่นความสอดคล้อง)

เชิงนามธรรม

หน้าสาธิต : ลิงค์

แบบจำลองความน่าจะเป็นของ Denoising Diffusion (DDPMS) ได้แสดงประสิทธิภาพที่มีแนวโน้มสำหรับการสังเคราะห์คำพูด อย่างไรก็ตามจำเป็นต้องมีขั้นตอนการวนซ้ำจำนวนมากเพื่อให้ได้คุณภาพตัวอย่างสูงซึ่ง จำกัด ความเร็วการอนุมาน การรักษาคุณภาพตัวอย่างในขณะที่เพิ่มความเร็วในการสุ่มตัวอย่างได้กลายเป็นงานที่ท้าทาย ในบทความนี้เราเสนอวิธีการสังเคราะห์คำพูดที่ใช้ตามคำพูด ของ MO del , comospeech ซึ่งบรรลุการสังเคราะห์คำพูดผ่านขั้นตอนการสุ่มตัวอย่างการแพร่กระจายครั้งเดียวในขณะที่บรรลุคุณภาพเสียงสูง ข้อ จำกัด ที่สอดคล้องกันถูกนำไปใช้เพื่อกลั่นแบบจำลองความสอดคล้องจากแบบจำลองครูที่ได้รับการออกแบบมาอย่างดีซึ่งในที่สุดก็ให้ประสิทธิภาพที่เหนือกว่าใน comospeech กลั่น การทดลองของเราแสดงให้เห็นว่าด้วยการสร้างการบันทึกเสียงโดยขั้นตอนการสุ่มตัวอย่างเดียว comospeech จะได้รับความเร็วการอนุมานเร็วกว่า 150 เท่าเร็วกว่าเวลาจริงใน Nvidia A100 GPU เดียวซึ่งเทียบได้กับ FastSpeech2 ในขณะเดียวกันการประเมินวัตถุประสงค์และอัตนัยเกี่ยวกับการสังเคราะห์เสียงและการร้องเพลงการร้องเพลงแสดงให้เห็นว่าแบบจำลองครูที่เสนอให้คุณภาพเสียงที่ดีที่สุดและการสุ่มตัวอย่างแบบขั้นตอนเดียวทำให้เกิดความเร็วในการอนุมานที่ดีที่สุดด้วยคุณภาพเสียงที่ดีขึ้น

เตรียมตัว

สร้างรหัส monotonic_align (cython):

 cd model/monotonic_align ; python setup.py build_ext --inplace ; cd ../..

การอนุมาน

เรียกใช้ inference.py สคริปต์โดยการจัดหาพา ธ ไปยังไฟล์ข้อความเส้นทางไปยังจุดตรวจสอบจำนวนการสุ่มตัวอย่าง:

    python inference.py -f < text file > -c < checkpoint > -t < sampling steps >

ตรวจสอบโฟลเดอร์ที่ out ว่าเสียงที่สร้างขึ้น โปรดทราบว่าในไฟล์ params ครู = จริงสำหรับโมเดลครูของเราเท็จมีไว้สำหรับ comospeech ของเรา นอกจากนี้เรายังใช้นักร้องเดียวกันใน Grad-TTS คุณสามารถดาวน์โหลดและใส่ลงในโฟลเดอร์ Checkpts

การฝึกอบรม

เราใช้ชุดข้อมูล LJSpeech และติดตามการแยกรถไฟ/ทดสอบ/วาลใน FastSpeech2 คุณสามารถเปลี่ยนการแยกในโฟลเดอร์ FS2_TXT จากนั้นเรียกใช้ Script train.py

    python train.py

โปรดทราบว่าในไฟล์ params ครู = จริงสำหรับโมเดลครูของเราเท็จมีไว้สำหรับ comospeech ของเรา ในขณะที่การฝึกอบรม comospeech ไดเรกทอรีจุดตรวจสอบครูควรจัดให้

จุดตรวจที่ได้รับการฝึกอบรมเกี่ยวกับ LJSpeech สามารถดาวน์โหลดได้จากที่นี่