Rendi Chevi , Alham Fikri Aji
Mbzuai
? Link de papel | ? Página do projeto | ? Código em breve!
Muitas vezes, expressamos emoções verbalmente de maneira multifacetada, elas podem variar em suas intensidades e podem ser expressas não apenas como uma única, mas como uma mistura de emoções. Esse amplo espectro de emoções está bem estudado no modelo estrutural de emoções, que representa uma variedade de emoções como produtos derivados de emoções primárias com graus variados de intensidade. Neste artigo, propomos um design emocional de texto em fala para simular um espectro mais amplo de emoções fundamentadas no modelo estrutural. Nosso design proposto, Daisy-TTs, incorpora um codificador de prosódia para aprender prosódia emocionalmente sepparável, incorporando como um proxy de emoção. Essa representação emocional permite que o modelo simule: (1) emoções primárias, conforme aprendido com as amostras de treinamento, (2) emoções secundárias, como uma mistura de emoções primárias, (3) nível de intensidade, escalando a emoção incorporando e (4) a polaridade das emoções, negando a incorporação da emoção. Através de uma série de avaliações perceptivas, a Daisy-TTs demonstrou maior naturalidade geral da fala emocional e percepção da emoção em comparação com a linha de base.