Sampel tersedia di halaman GitHub !!!
Judul: E3-Vits: Emosional end-to-end TTS dengan transfer gaya lintas-speaker (tautan kertas)
Abstrak: Karena model TTS emosional sebelumnya didasarkan pada pipa dua tahap atau label tambahan, proses pelatihan mereka rumit dan membutuhkan biaya pelabelan yang tinggi. Untuk menangani masalah ini, makalah ini menyajikan E3-Vits, model TTS emosional ujung ke ujung yang membahas keterbatasan model yang ada. E3-Vits mensintesis pidato berkualitas tinggi untuk kondisi multi-speaker, mendukung sintesis ucapan emosional berbasis rujukan dan tekstual, dan memungkinkan transfer emosi lintas-speaker dengan dataset yang terpisah. Untuk mengimplementasikan E3-Vits, kami mengusulkan gangguan gaya yang dikenakan batch, yang menghasilkan sampel audio dengan emosi tidak berpasangan untuk meningkatkan kualitas transfer emosi lintas-speaker. Hasil menunjukkan bahwa E3-vits mengungguli model dasar dalam hal kealamian, kesamaan pembicara dan emosi, dan kecepatan inferensi.