Образцы доступны на страницах GitHub !!!
Название: e3-vits: эмоциональные сквозные TTS с передачей стиля поперечного дивизии (бумажная ссылка)
Аннотация: Поскольку предыдущие эмоциональные модели TTS основаны на двухэтапном трубопроводе или дополнительных метках, их процесс обучения является сложным и требует высокой стоимости маркировки. Чтобы решить эту проблему, в этом документе представлены E3-Vits, сквозной эмоциональной модели TTS, которая учитывает ограничения существующих моделей. E3-Vits синтезирует высококачественные речи для условий с несколькими динамиками, поддерживает как справочную речь, так и текстовое синтез эмоциональной речи на основе текстового описания и позволяет переносить эмоции по перекрестному динамику с помощью набора данных с непрерывным набором данных. Для реализации E3-Vits мы предлагаем пакетное возмущение стиля, которое генерирует образцы звука с непаренными эмоциями, чтобы повысить качество передачи эмоций по перекрестному динамику. Результаты показывают, что E3-Vits превосходят базовую модель с точки зрения естественности, сходства динамиков и эмоций и скорости вывода.