Penulis: Hyunjae Cho, Wonbin Jung, Junhyeok Lee, Sang Hoon Woo @mindslab Inc.
Abstrak: Dalam makalah ini, kami menyajikan SANE-TTS, model TTS multibahasa ujung ke ujung yang stabil dan alami. Dengan kesulitan mendapatkan corpus multibahasa untuk pembicara yang diberikan, melatih model TTS multibahasa dengan korpora monolingual tidak dapat dihindari. Kami memperkenalkan kehilangan regularisasi pembicara yang meningkatkan kealamian bicara selama sintesis lintas-bahasa serta pelatihan permusuhan domain, yang diterapkan dalam model TTS multibahasa lainnya. Selain itu, dengan menambahkan kehilangan regularisasi speaker, mengganti embedding speaker dengan vektor nol dalam durasi prediktor menstabilkan inferensi lintas-bahasa. Dengan penggantian ini, model kami menghasilkan pidato dengan ritme sedang terlepas dari pembicara sumber dalam sintesis lintas-bahasa. Dalam evaluasi MOS, SANE-TTS mencapai skor kealamian di atas 3,80 baik dalam sintesis lintas-bahasa dan intralingual, di mana skor kebenaran tanah adalah 3,99. Juga, Sane-TTS mempertahankan kesamaan pembicara yang dekat dengan kebenaran tanah bahkan dalam inferensi lintas-bahasa. Sampel audio tersedia di halaman web kami.
| Prosedur Pelatihan | Prosedur inferensi |
|---|---|
![]() | ![]() |