ภาษาจีน-FastSpeech2
จากข้อมูลเสียงหญิงมาตรฐานของ Biaobei Chinese โมเดล FastSpeech2 ของกระดาษต้นฉบับได้รับการปรับปรุงและการเป็นตัวแทนจังหวะและโมดูลการทำนายจังหวะได้รับการแนะนำเพื่อให้การออกเสียงภาษาจีนสดใสและเป็นจังหวะมากขึ้น
20230402 อัปเดต
- 1. เพิ่มรหัสการฝึกอบรมแบบจำลองจังหวะในไดเรกทอรี BertProSody
- 2. เพิ่มรหัสการประมวลผลล่วงหน้าสำหรับการฝึกอบรมแบบจำลองจังหวะ (สำหรับข้อมูลเชลล์มาตรฐานรหัสยังไม่ได้รับการคัดออก, รุ่นแรก), ใน preprocessor/biaobei.py
ตัวอย่าง
อ้างถึงเสียงที่สร้างขึ้นในตัวอย่าง
ไฟล์โมเดล
โครงสร้างหลักของโครงการนี้คือโครงสร้าง FastSpeech2+Hifigan นอกจากนี้ยังมีการแนะนำเวกเตอร์จังหวะของข้อความภาษาจีนในขั้นตอนการป้อนข้อมูล ดังนั้นจึงมีสามรุ่น: FastSpeech_Model, Hifigan_Model, Prosody_Model (ลิงก์ดิสก์สุทธิ, รหัสการสกัด: QGPI) หลังจากดาวน์โหลดแล้วใส่ไฟล์โมเดลลงในไดเรกทอรีที่ระบุ:
- 8000.pth.tar ---> เอาท์พุท/ckpt/biaobei/
- generator_universal.pth.tar ---> hifigan/
- best_model.pt ---> transformer/prosody_model/
ทำนาย
มีวิธีการทำนายสองวิธี: 1) Python synthesize_all.py; 2) การโทรอินเตอร์เฟส http
- วิธีแรกคือ การโต้ตอบ หลังจากเรียกใช้ Python synthesize_all.py บนบรรทัดคำสั่งให้ป้อนข้อความที่ต้องแปลง หลังจากเรียกใช้ไฟล์ tmp.wav จะถูกสร้างขึ้นในรหัสในไดเรกทอรีการทำงานปัจจุบัน
- วิธีที่สองคือ การเรียก API ให้เรียกใช้ tts_server.py ซึ่งจะเริ่มอินเตอร์เฟสเสียงเป็นข้อความ หากคุณเรียกอินเทอร์เฟซนี้คุณสามารถอ้างอิงถึง testserver.py ไฟล์เสียงที่สร้างขึ้นเดียวกัน (tmp.wav) จะถูกบันทึกในไดเรกทอรีการทำงานปัจจุบัน
รถไฟ
- เนื่องจากโครงการนี้หมายถึงโครงการ FastSpeech2 หากคุณต้องการปรับแต่งการฝึกอบรมโครงการจึงให้วิธีการฝึกอบรมโดยละเอียดเพิ่มเติมสำหรับการอ้างอิง
- โครงการนี้ได้ทำการปรับให้เหมาะสมกับวิธีดั้งเดิม สำหรับส่วนการเพิ่มประสิทธิภาพโปรดดูบล็อก: การสังเคราะห์คำพูดภาษาจีนตามการเพิ่มประสิทธิภาพ FastSpeech2
โครงการนี้เป็นความพยายามที่จะทำการสังเคราะห์คำพูดจากความสนใจส่วนบุคคล ทุกคนยินดีที่จะวิพากษ์วิจารณ์และแก้ไขฉันและสื่อสารเพิ่มเติม!