Ренди Шеви , Алхам Фикри Аджи
Мбзуай
? Бумажная ссылка | ? Project Page | ? Код в ближайшее время!
Мы часто устно выражаем эмоции многогранным образом, они могут различаться в их интенсивности и могут выражать не только одну, но как смесь эмоций. Этот широкий спектр эмоций хорошо изучен в структурной модели эмоций, которая представляет разнообразие эмоций в качестве производных продуктов первичных эмоций с различной степенью интенсивности. В этой статье мы предлагаем эмоциональную конструкцию текста в речь для моделирования более широкого спектра эмоций, основанных на структурной модели. Наш предложенный дизайн, Daisy-TTS, включает в себя просодийную энкодер для изучения эмоционально-неразборчивой просодии, встраиваемой как прокси для эмоций. Это представление эмоции позволяет модели моделировать: (1) первичные эмоции, как узнаваемые из тренировочных образцов, (2) вторичных эмоций, как смесь первичных эмоций, (3) уровня интенсивности, путем масштабирования эмоций, и (4) полярности эмоций, отрицая эмоции, вкладывающие эмоции. Благодаря серии оценок восприятия Daisy-TTS продемонстрировали общую более высокую эмоциональную речь естественность и восприятие эмоций по сравнению с базовой линией.