Rendi Chevi , Alham Fikri Aji
Mbzuai
? Lien papier | ? Page du projet | ? Code à venir bientôt!
Nous exprimons souvent verbalement les émotions de manière multiforme, elles peuvent varier dans leurs intensités et peuvent être exprimées non seulement comme un seul mais comme un mélange d'émotions. Ce large spectre d'émotions est bien étudié dans le modèle structurel des émotions, qui représente la variété des émotions comme produits dérivés des émotions primaires avec divers degrés d'intensité. Dans cet article, nous proposons une conception émotionnelle de texte à dispection pour simuler un spectre plus large d'émotions fondées sur le modèle structurel. Notre conception proposée, Daisy-TTS, intègre un encodeur de prosodie pour apprendre la prosodie émotionnellement séparable comme un indicateur de l'émotion. Cette représentation des émotions permet au modèle de simuler: (1) les émotions primaires, comme le savent les échantillons d'entraînement, (2) les émotions secondaires, comme un mélange d'émotions primaires, (3) le niveau d'intensité, en élargissant l'émotion, et (4) la polarité des émotions, en nutant l'intégration des émotions. Grâce à une série d'évaluations perceptuelles, les Daisy-TTS ont démontré une perception globale de la parole émotionnelle plus élevée et de la perception par rapport à la ligne de base.