Скачать glow tts - Скачать исходный код glow tts

glow tts

AI Исходный код

1.0.0

Скачать

Glow-TTS: генеративный поток для текста в речь с помощью монотонного поиска выравнивания

Jaehyeon Kim, Sungwon Kim, Jungil Kong и Sungroh Yoon

В нашей недавней статье мы предлагаем Glow-TTS: генеративный поток для текста в речь с помощью монотонного поиска выравнивания.

В последнее время были предложены модели текста в речь (TTS), такие как Fastspeech и Paranet для генерации мель-спектрограммов из текста параллельно. Несмотря на преимущество, модели параллельных TTS не могут быть обучены без руководства из авторегрессивных моделей TTS в качестве их внешних выравнивателей. В этой работе мы предлагаем Glow-TTS, генеративную модель на основе потока для параллельных TTS, которая не требует никакого внешнего выравнивателя. Сочетая свойства потоков и динамического программирования, предлагаемая модель ищет наиболее вероятное монотонное выравнивание между текстом и скрытым представлением речи самостоятельно. Мы демонстрируем, что обеспечение соблюдения жестких монотонных выравниваний позволяет обеспечивать надежные TTS, что обобщается до длинных высказываний, а использование генеративных потоков позволяет быстро, разнообразно и контролируемый синтез речи. Glow-TTS получает ускорение порядка матча над авторегрессивной моделью Tacotron 2, при синтезе с сопоставимым качеством речи. Мы также показываем, что наша модель может быть легко расширена на многопрофильную настройку.

Посетите нашу демонстрацию для образцов аудио.

Мы также предоставляем предварительную модель.

Glow-TTS на тренировке	Glow-TTS при выводе

Обновление заметок*

Этот результат не был включен в статью. В последнее время мы обнаружили, что две модификации помогают улучшить качество синтеза Glow-TTS.; 1) Переход к вокадеру, Hifi-Gan, чтобы уменьшить шум, 2) поместить пустой токен между любыми двумя входными токенами для улучшения произношения. В частности, мы использовали тонко настроенный вокадер с Tacotron 2, который предоставляется в качестве предварительной модели в репо. Если вам интересно, пожалуйста, послушайте образцы в нашей демонстрации.

Для добавления пустого токена мы предоставляем файл конфигурации и предварительную модель. Мы также предоставляем пример вывода sepence_hifigan.ipynb. Вам может потребоваться инициализировать Hifi-Gan Submodule: git submodule init; git submodule update