นี่คือกรอบการทำงานแบบข้อความเป็นคำพูดแบบแยกส่วนโดยมีวัตถุประสงค์เพื่อสนับสนุนการวิจัยและการพัฒนาผลิตภัณฑ์อย่างรวดเร็ว คุณสมบัติหลักรวมถึง
ยินดีต้อนรับการมีส่วนร่วม
ชำระเงินการสาธิตที่นี่ 
git clone https://github.com/ranchlai/mandarin-tts.git
cd mandarin-tts
git submodule update --force --recursive --init --remote
pip install -e . f
มีตัวอย่างสองตัวอย่างที่นี่: Biaobei และ Aishell3
ในการฝึกอบรมโมเดลของคุณเองให้ทำสำเนาจากตัวอย่างที่มีอยู่ก่อนจากนั้นเตรียมคุณสมบัติ melspectrogram โดยใช้ wav2mel.py โดย
cd examples
python wav2mel.py -c ./aishell3/config.yaml -w < aishell3_wav_folder > -m < mel_folder > -d cpuเตรียมไฟล์ SCP ที่จำเป็นสำหรับการฝึกอบรม
cd examples/aishell3
python prepare.py --wav_folder < aishell3_wav_folder > --mel_folder < mel_folder > --dst_folder ./train/สิ่งนี้จะสร้างไฟล์ SCP ที่กำหนดโดย config.yaml (ในส่วนชุดข้อมูล/รถไฟ) คุณจะต้องตรวจสอบว่าทุกอย่างเรียบร้อยดีในไฟล์กำหนดค่า โดยปกติคุณไม่จำเป็นต้องเปลี่ยนรหัส
ตอนนี้คุณสามารถเริ่มการฝึกอบรมได้โดย
cd examples/aishell3
python ../../mtts/train.py -c config.yaml -d cudaสำหรับชุดข้อมูล Biaobei เวิร์กโฟลว์เหมือนกันยกเว้นว่าไม่มีลำโพงฝัง แต่คุณสามารถเพิ่มการฝังฉันทลักษณ์ได้
จะเพิ่มตัวอย่างเพิ่มเติม กรุณาอยู่
ปัจจุบันมีสองตัวอย่างและมีการสรุปจุดตรวจสอบ/การกำหนดค่าที่สอดคล้องกันดังนี้
| ชุดข้อมูล | ด่าน | การกำหนดค่า |
|---|---|---|
| aishell3 | การเชื่อมโยง | การเชื่อมโยง |
| biaobei | การเชื่อมโยง | การเชื่อมโยง |
Vocoders มีบทบาทในการแปลง Melspectrograms เป็นรูปคลื่น พวกเขาจะถูกเพิ่มเป็น submodules และจะได้รับการฝึกอบรมในโครงการนี้ ดังนั้นคุณควรดาวน์โหลดจุดตรวจก่อนสังเคราะห์ ในการฝึกอบรมผู้ร้องไม่จำเป็นเนื่องจากคุณสามารถตรวจสอบกระบวนการฝึกอบรมจาก melspectrograms ที่สร้างขึ้นและเส้นโค้งการสูญเสีย ปัจจุบันเราสนับสนุนนักร้องต่อไปนี้
| ผู้ร้อง | ด่าน | คนอื่น ๆ |
|---|---|---|
| เครื่องเป่านก | การเชื่อมโยง | การเชื่อมโยง |
| hifi-gan | การเชื่อมโยง | การเชื่อมโยง |
| vocgan | ลิงค์ลิงค์ | การเชื่อมโยง |
| Melgan | การเชื่อมโยง | การเชื่อมโยง |
นักร้องทุกคนจะพร้อมหลังจากเรียกใช้ git submodule update --force --recursive --init --remote อย่างไรก็ตามคุณต้องดาวน์โหลดจุดตรวจสอบด้วยตนเองและตั้งค่าเส้นทางในไฟล์ config.yaml
input.txt ควรสอดคล้องกับการตั้งค่า emb_type1 เป็น emb_type_n ในไฟล์ config เช่นประเภทเดียวกันลำดับเดียวกัน
เพื่ออำนวยความสะดวกในการถอดความ Hanzi เป็น Pinyin คุณสามารถลอง:
cd examples/aishell3/
python ../../mtts/text/gp2py.py -t "为适应新的网络传播方式和读者阅读习惯"
>> sil wei4 shi4 ying4 xin1 de5 wang3 luo4 chuan2 bo1 fang1 shi4 he2 du2 zhe3 yue4 du2 xi2 guan4 sil|sil 为 适 应 新 的 网 络 传 播 方 式 和 读 者 阅 读 习 惯 sil
ไม่ใช่คุณสามารถคัดลอกข้อความไปที่ input.txt และอย่าลืมใส่ชื่อและรหัสลำโพงที่กำหนดด้วยตนเองโดยคั่นด้วย '|'
ด้วยจุดตรวจสอบข้างต้นและข้อความพร้อมในที่สุดคุณสามารถเรียกใช้กระบวนการสังเคราะห์ได้
python ../../mtts/synthesize.py -d cuda --c config.yaml --checkpoint ./checkpoints/checkpoint_1240000.pth.tar -i input.txtโปรดตรวจสอบไฟล์ config.yaml สำหรับการตั้งค่า Vocoder
หากโชคดีตัวอย่างเสียงสามารถพบได้ในโฟลเดอร์เอาท์พุท