ผู้เขียน: Hyunjae Cho, Wonbin Jung, Junhyeok Lee, Sang Hoon Woo @mindslab Inc.
บทคัดย่อ: ในบทความนี้เรานำเสนอ Sane-TTS ซึ่งเป็นรุ่น TTS หลายภาษาที่มีความเสถียรและเป็นธรรมชาติ โดยความยากลำบากในการได้รับคลังข้อมูลหลายภาษาสำหรับผู้พูดที่ได้รับการฝึกอบรมแบบจำลอง TTS หลายภาษากับ corpora monolingual นั้นหลีกเลี่ยงไม่ได้ เราแนะนำการสูญเสียการทำให้เป็นปกติของผู้พูดที่ปรับปรุงความเป็นธรรมชาติของคำพูดในระหว่างการสังเคราะห์ข้ามภาษาเช่นเดียวกับการฝึกอบรมฝ่ายตรงข้ามโดเมนซึ่งใช้ในแบบจำลอง TTS หลายภาษาอื่น ๆ นอกจากนี้โดยการเพิ่มการสูญเสียการทำให้เป็นปกติของลำโพงการแทนที่ลำโพงฝังด้วยเวกเตอร์ศูนย์ในการทำนายระยะเวลาทำให้การอนุมานข้ามภาษามีความเสถียร ด้วยการแทนที่นี้แบบจำลองของเราจะสร้างสุนทรพจน์ที่มีจังหวะปานกลางโดยไม่คำนึงถึงลำโพงต้นทางในการสังเคราะห์ข้ามภาษา ในการประเมิน MOS, Sane-TTS ได้คะแนนความเป็นธรรมชาติสูงกว่า 3.80 ทั้งในการสังเคราะห์ข้ามภาษาและ intralingual ซึ่งคะแนนความจริงภาคพื้นดินคือ 3.99 นอกจากนี้ Sane-TTS ยังคงความคล้ายคลึงกันของผู้พูดใกล้กับความจริงพื้นฐานแม้ในการอนุมานข้ามภาษา ตัวอย่างเสียงมีอยู่ในหน้าเว็บของเรา
| ขั้นตอนการฝึกอบรม | ขั้นตอนการอนุมาน |
|---|---|
![]() | ![]() |