Rendi Chevi , Alham Fikri Aji
Mbzuai
? Enlace de papel | ? Página del proyecto | ? ¡Código próximamente!
A menudo expresamos verbalmente emociones de manera multifacética, pueden variar en sus intensidades y pueden expresarse no solo como una sola mezcla de emociones. Este amplio espectro de emociones está bien estudiada en el modelo estructural de las emociones, lo que representa la variedad de emociones como productos derivados de emociones primarias con diversos grados de intensidad. En este artículo, proponemos un diseño emocional de texto a voz para simular un espectro más amplio de emociones basadas en el modelo estructural. Nuestro diseño propuesto, Daisy-TTS, incorpora un codificador de prosodios para aprender la incrustación de la prosodia emocionalmente separable como un proxy de la emoción. Esta representación emocional permite que el modelo simule: (1) las emociones primarias, como se aprende de las muestras de entrenamiento, (2) las emociones secundarias, como una mezcla de emociones primarias, (3) el nivel de intensidad, al escalar la incrustación de emociones y (4) la polaridad de las emociones, al negar el incrustación de la emoción. A través de una serie de evaluaciones perceptivas, Daisy-TTS demostró una mayor naturalidad del habla emocional y la percepción de la emoción en comparación con la línea de base.