Скачать Unet TTS - скачать исходный код Unet TTS

Unet TTS

AI Исходный код

1.0.0

Скачать

Unet-TTS: улучшение невидимого оратора и переноса стиля в одноразовом клонировании голоса

Электронная почта: [email protected]

Наш предложенный алгоритм обладает мощными возможностями передачи динамиков и стиля, особенно отличной имитации эмоций вне домена.

Не требуется точная настройка, всего несколько секунд целевого звука
Синтезировать произвольный текст
Встраиваемая пауза, стесса и другие стили выступления в речи

Код

Колаб ноутбук

Результаты мандарина

Бумажная ссылка

Клонирование с одним выстрелом направлено на преобразование голоса громкоговорителя и стиль разговора в речи, синтезированной из системы текста в речь (TTS), где можно использовать только запись с целевой речи. Передача вне домена по-прежнему является сложной задачей, и одним из важных аспектов, который влияет на точность и сходство синтетической речи, являются условные представления, несущие динамики или сигналы стиля, извлеченные из ограниченных ссылок. В этой статье мы представляем новый алгоритм клонирования голоса с одним выстрелом под названием Unet-TTS, который обладает хорошей способностью обобщения для невидимых динамиков и стилей. Основываясь на скип-подключенной к структуре U-NET, новая модель может эффективно обнаружить детали спектральной функции на уровне говорящих и уровня высказывания из эталонного звука, что позволяет точно вывести изделия сложных акустических характеристик, а также имитация стилей говорящих в синтетической речи. В соответствии с субъективными и объективными оценками сходства, новая модель превосходит как оратор, так и неконтролируемое стиль моделирования (GST) подходов к невидному эмоциональному корпусу.