ตัวอย่างมีอยู่ในหน้า GitHub !!!
ชื่อเรื่อง: E3-vits: TTs end-to-end ทางอารมณ์พร้อมการถ่ายโอนสไตล์ข้ามลำโพง (ลิงก์กระดาษ)
บทคัดย่อ: เนื่องจากโมเดล TTS ทางอารมณ์ก่อนหน้านี้ขึ้นอยู่กับท่อส่งสองขั้นตอนหรือฉลากเพิ่มเติมกระบวนการฝึกอบรมของพวกเขาจึงซับซ้อนและต้องใช้ค่าใช้จ่ายในการติดฉลากสูง เพื่อจัดการกับปัญหานี้บทความนี้นำเสนอ E3-vits ซึ่งเป็นแบบจำลอง TTS ทางอารมณ์แบบ end-to-end ที่ระบุถึงข้อ จำกัด ของโมเดลที่มีอยู่ E3-vits สังเคราะห์สุนทรพจน์ที่มีคุณภาพสูงสำหรับเงื่อนไขหลายลำโพงรองรับทั้งคำพูดอ้างอิงและการสังเคราะห์คำพูดทางอารมณ์ตามคำอธิบายที่เป็นข้อความและช่วยให้การถ่ายโอนอารมณ์ข้ามลำโพงด้วยชุดข้อมูลแบบแยกส่วน ในการใช้ E3-vits เราเสนอรูปแบบการก่อกวนแบบแบทช์ซึ่งสร้างตัวอย่างเสียงที่มีอารมณ์ความรู้สึกที่ไม่มีคู่เพื่อเพิ่มคุณภาพของการถ่ายโอนอารมณ์ข้ามลำโพง ผลลัพธ์แสดงให้เห็นว่า E3-vits มีประสิทธิภาพสูงกว่ารูปแบบพื้นฐานในแง่ของความเป็นธรรมชาติลำโพงและความคล้ายคลึงกันทางอารมณ์และความเร็วในการอนุมาน