Rendi Chevi , Alham Fikri Aji
Mbzuai
? Tautan kertas | ? Halaman Proyek | ? Kode segera hadir!
Kita sering secara verbal mengekspresikan emosi secara beragam, mereka dapat bervariasi dalam intensitasnya dan dapat diekspresikan tidak hanya sebagai tunggal tetapi sebagai campuran emosi. Spektrum emosi yang luas ini dipelajari dengan baik dalam model emosi struktural, yang mewakili berbagai emosi sebagai produk turunan dari emosi primer dengan berbagai tingkat intensitas. Dalam makalah ini, kami mengusulkan desain teks-ke-kebesaran emosional untuk mensimulasikan spektrum emosi yang lebih luas yang didasarkan pada model struktural. Desain kami yang diusulkan, Daisy-TTS, menggabungkan enkoder prosodi untuk belajar prosodi yang dapat dipisahkan secara emosional sebagai proxy untuk emosi. Representasi emosi ini memungkinkan model untuk mensimulasikan: (1) emosi primer, seperti yang dipelajari dari sampel pelatihan, (2) emosi sekunder, sebagai campuran emosi primer, (3) tingkat intensitas, dengan meningkatkan emosi yang menanamkan, dan (4) emosi polaritas, dengan meniadakan emosi yang menanamkan. Melalui serangkaian evaluasi perseptual, Daisy-TTS menunjukkan kesamaan ucapan emosional yang lebih tinggi dan persepsi emosi dibandingkan dengan baseline.