ดาวน์โหลด Chinese FastSpeech2 - ดาวน์โหลดซอร์สโค้ด Chinese FastSpeech2

Chinese FastSpeech2

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

ภาษาจีน-FastSpeech2

จากข้อมูลเสียงหญิงมาตรฐานของ Biaobei Chinese โมเดล FastSpeech2 ของกระดาษต้นฉบับได้รับการปรับปรุงและการเป็นตัวแทนจังหวะและโมดูลการทำนายจังหวะได้รับการแนะนำเพื่อให้การออกเสียงภาษาจีนสดใสและเป็นจังหวะมากขึ้น

20230402 อัปเดต

1. เพิ่มรหัสการฝึกอบรมแบบจำลองจังหวะในไดเรกทอรี BertProSody
2. เพิ่มรหัสการประมวลผลล่วงหน้าสำหรับการฝึกอบรมแบบจำลองจังหวะ (สำหรับข้อมูลเชลล์มาตรฐานรหัสยังไม่ได้รับการคัดออก, รุ่นแรก), ใน preprocessor/biaobei.py

ตัวอย่าง

อ้างถึงเสียงที่สร้างขึ้นในตัวอย่าง

ไฟล์โมเดล

โครงสร้างหลักของโครงการนี้คือโครงสร้าง FastSpeech2+Hifigan นอกจากนี้ยังมีการแนะนำเวกเตอร์จังหวะของข้อความภาษาจีนในขั้นตอนการป้อนข้อมูล ดังนั้นจึงมีสามรุ่น: FastSpeech_Model, Hifigan_Model, Prosody_Model (ลิงก์ดิสก์สุทธิ, รหัสการสกัด: QGPI) หลังจากดาวน์โหลดแล้วใส่ไฟล์โมเดลลงในไดเรกทอรีที่ระบุ:

8000.pth.tar ---> เอาท์พุท/ckpt/biaobei/
generator_universal.pth.tar ---> hifigan/
best_model.pt ---> transformer/prosody_model/

ทำนาย

มีวิธีการทำนายสองวิธี: 1) Python synthesize_all.py; 2) การโทรอินเตอร์เฟส http

วิธีแรกคือ การโต้ตอบ หลังจากเรียกใช้ Python synthesize_all.py บนบรรทัดคำสั่งให้ป้อนข้อความที่ต้องแปลง หลังจากเรียกใช้ไฟล์ tmp.wav จะถูกสร้างขึ้นในรหัสในไดเรกทอรีการทำงานปัจจุบัน
วิธีที่สองคือ การเรียก API ให้เรียกใช้ tts_server.py ซึ่งจะเริ่มอินเตอร์เฟสเสียงเป็นข้อความ หากคุณเรียกอินเทอร์เฟซนี้คุณสามารถอ้างอิงถึง testserver.py ไฟล์เสียงที่สร้างขึ้นเดียวกัน (tmp.wav) จะถูกบันทึกในไดเรกทอรีการทำงานปัจจุบัน

รถไฟ

เนื่องจากโครงการนี้หมายถึงโครงการ FastSpeech2 หากคุณต้องการปรับแต่งการฝึกอบรมโครงการจึงให้วิธีการฝึกอบรมโดยละเอียดเพิ่มเติมสำหรับการอ้างอิง
โครงการนี้ได้ทำการปรับให้เหมาะสมกับวิธีดั้งเดิม สำหรับส่วนการเพิ่มประสิทธิภาพโปรดดูบล็อก: การสังเคราะห์คำพูดภาษาจีนตามการเพิ่มประสิทธิภาพ FastSpeech2

โครงการนี้เป็นความพยายามที่จะทำการสังเคราะห์คำพูดจากความสนใจส่วนบุคคล ทุกคนยินดีที่จะวิพากษ์วิจารณ์และแก้ไขฉันและสื่อสารเพิ่มเติม!

ขยาย

ข้อมูลเพิ่มเติม