Rendi Chevi , Alham Fikri Aji
Mbzuai
? Papierverbindung | ? Projektseite | ? Code kommt bald!
Wir drücken oft verbal Emotionen in vielfältiger Weise aus, sie können in ihren Intensitäten variieren und können nicht nur als einzelne, sondern als Mischung von Emotionen ausgedrückt werden. Dieses breite Emotionsspektrum ist im Strukturmodell von Emotionen gut untersucht, was eine Vielzahl von Emotionen als Derivatprodukte von primären Emotionen mit unterschiedlichem Intensitätsgrad darstellt. In diesem Artikel schlagen wir ein emotionales Text-zu-Sprache-Design vor, um ein breiteres Spektrum von Emotionen zu simulieren, die auf dem Strukturmodell beruhen. Unser vorgeschlagenes Design, Daisy-TTS, beinhaltet einen Prosodie-Encoder, um emotional trennbare Prosodie als Proxy für Emotionen einzubetten. Diese Emotionsdarstellung ermöglicht es dem Modell zu simulieren: (1) Primäremotionen, wie aus den Trainingsproben, (2) sekundäre Emotionen, als Mischung aus primären Emotionen, (3) Intensitätsniveau, durch Skalierung der Emotionsinbettierung und (4) -Motionen Polarität, indem die Emotionsbettung skaliert wurde. Durch eine Reihe von Wahrnehmungsbewertungen zeigten Daisy-TTs im Vergleich zur Grundlinie insgesamt höhere emotionale Sprachnatürlichkeit und Emotions wahrnehmbare Fähigkeit.