bert-vits2 บทความอ้างอิง: https://zenn.dev/litagin/articles/b1ddc1da5ea2b3
นี่คือ webui สำหรับ windows ที่ให้คุณเรียนรู้รุ่นญี่ปุ่น Vits และช่วยให้คุณสังเคราะห์คำพูดด้วยสำเนียง หากคุณมีการสังเคราะห์คำพูดเท่านั้นคุณสามารถใช้งานได้แม้จะไม่มีการ์ดกราฟิกก็ตาม
- การสาธิตการสังเคราะห์คำพูด
| การสังเคราะห์คำพูด | ศึกษา |
|---|---|
![]() | ![]() |
pyopenjtalk_prosody ซึ่งมีสัญลักษณ์สำเนียงเพิ่ม ในสถานการณ์เช่นนี้ฉันกำลังใช้ แบบจำลองที่ได้รับการฝึกฝนกับ G2P ในภาษาญี่ปุ่นโดยใช้ pyopenjtalk_prosody และ อ่าน เพื่อความสะดวก (ข้อเสนอจาก Bing-chan)
Pyopenjtalk_prosody ยังจัดการสัญลักษณ์เช่นสำเนียงดังนั้นคุณสามารถใช้เพื่อควบคุมสำเนียง (ハ➚シハ➘シ)
| เครื่องหมาย | บทบาท | ตัวอย่าง |
|---|---|---|
[ | สำเนียงเพิ่มขึ้นจากที่นี่ (ภาพของ➚) | สวัสดี→コ[ンニチワ |
] | สำเนียงตกจากที่นี่ (ภาพของ➘) | Kyoto →キョ]オト |
(พื้นที่ครึ่งความกว้าง) | บทกวีสำเนียง (อย่างใดเค้กชิ้นเดียว) | ソ[レワ ム[ズカシ]イ |
、 | ท่าทาง (สูดลมหายใจ) ใช้เมื่อคุณต้องการทำท่าทางสั้น ๆ | ハ]イ、ソ[オ オ[モイマ]ス |
? | ฉันจะเพิ่มลงในตอนท้ายของคำถาม | キ[ミワ ダ]レ? |
นี่คือสิ่งที่ช่วยให้คุณฝึกอบรมโหลดและการสังเคราะห์คำพูดของรุ่น Japros ในสภาพแวดล้อม Windows ท้องถิ่น
config.yaml ฉันได้ยืนยันว่ามันใช้งานได้กับ RTX 4070 บน Windows 11 ด้วย Python 3.10
git clone https://github.com/litagin02/vits-japros-webui.gitsetup.bat ข้างในและรอสักครู่ เมื่อ Setup complete. ปรากฏว่าคุณทำเสร็จแล้วwebui_train.batpth จากนั้นดับเบิลคลิก webui_infer.batupdate.batสำหรับข้อมูลเพิ่มเติมและหากคุณไม่ต้องการ webui โปรดคลิกที่นี่
สำหรับโมเดลสร้างไดเรกทอรีย่อยในไดเรกทอรี weights และวางไฟล์ {数字}epoch.pth ภายใน หากคุณใช้โมเดลภายนอก (เข้ากันได้เฉพาะกับรุ่นที่สร้างขึ้นด้วย pyopenjtalk_prosody ใน vits กับ ESPNET) โปรดรวม config.yaml เมื่อศึกษา
weights
├── model1
│ └── 100epoch.pth
|── model2
│ ├── 50epoch.pth
│ └── config.yaml
...
os.uname และตำแหน่งการสร้างลิงค์สัญลักษณ์)