Электронная почта: [email protected]
Наш предложенный алгоритм обладает мощными возможностями передачи динамиков и стиля, особенно отличной имитации эмоций вне домена.
Код
Колаб ноутбук
Результаты мандарина
Бумажная ссылка
Клонирование с одним выстрелом направлено на преобразование голоса громкоговорителя и стиль разговора в речи, синтезированной из системы текста в речь (TTS), где можно использовать только запись с целевой речи. Передача вне домена по-прежнему является сложной задачей, и одним из важных аспектов, который влияет на точность и сходство синтетической речи, являются условные представления, несущие динамики или сигналы стиля, извлеченные из ограниченных ссылок. В этой статье мы представляем новый алгоритм клонирования голоса с одним выстрелом под названием Unet-TTS, который обладает хорошей способностью обобщения для невидимых динамиков и стилей. Основываясь на скип-подключенной к структуре U-NET, новая модель может эффективно обнаружить детали спектральной функции на уровне говорящих и уровня высказывания из эталонного звука, что позволяет точно вывести изделия сложных акустических характеристик, а также имитация стилей говорящих в синтетической речи. В соответствии с субъективными и объективными оценками сходства, новая модель превосходит как оратор, так и неконтролируемое стиль моделирования (GST) подходов к невидному эмоциональному корпусу.
