Awesome-TTS-Samples
Список документов TTS с образцами аудио, предоставленных авторами. Последние ряды каждой бумаги показывают используемой инверсии спектрограммы (Vocoder).
Для получения более полного списка важных документов TTS я рекомендую читать XCMYZ/Синтез-речевая бумага, написанная Zhengxi Liu.
2020
- FastPitch-FastPitch: параллельный текст в речь с прогнозом тона
- https://fastpitch.github.io/
- Волновой хлопот
- Eats-сквозное состязательное текст в речь
- https://deepmind.com/research/publications/end-to-end-adverarial-text-topeech
- Сквозная модель
- Glow-TTS-Glow-TTS: генеративный поток для текста в речь с помощью монотонного поиска выравнивания
- https://jaywalnut310.github.io/glow-tts-demo
- Волновой хлопот
- Flowtron-Flowtron: генеративная сеть на основе ауторегрессии на основе потока для синтеза текста в речь
- https://nv-adlr.github.io/flowtron
- Волновой хлопот
2019
- Tacotron2+DCA-Местные механизмы внимания для надежного синтеза речи длиной
- https://google.github.io/tacotron/publications/location_relative_attention
- Уэвернн
- GAN -TTS - Синтез речи с высокой точностью с помощью состязательных сетей
- https://storage.googleapis.com/deepmind-media/research/abstract.wav
- Средняя модель (построена на лингвистических и лингвистических и бревенчатых функциях 200 Гц)
- Многоязычный такотрон2-научиться бегло говорить на иностранном языке: многоязычный синтез речи и клонирование голоса поперечного языка
- https://google.github.io/tacotron/publications/multilingual
- Уэвернн
- Melnet - Melnet: генеративная модель для аудио в частотной области
- https://audio-samples.github.io
- https://sjvasquez.github.io/blog/melnet
- Градиентная инверсия спектрограммы
- Fastspeech - Fastspeech: быстрый, надежный и управляемый текст в речь
- https://speechresearch.github.io/fastspeech
- Волновой хлопот
- Паранет-параллельный нейронный текст в речь
- https://parallel-neural-tts-demo.github.io
- Wavevae, кларнет, волна
2018
- Transformer -TTS - Синтез нейронной речи с сетью трансформаторов
- https://neurstts.github.io/transformertts
- Wavenet
- Multi-Speaker Tacotron2-Передача обучения от проверки динамиков в синтез текста в речь.
- https://google.github.io/tacotron/publications/speaker_adaptation
- Wavenet
- Tacotron2+GST-токены стиля: моделирование, контроль и передача стиля без присмотра
- https://google.github.io/tacotron/publications/global_style_tokens
- Гриффин-Лим
2017
- Tacotron2 - Природный синтез TTS путем кондиционирования Wavenet на предсказаниях спектрограммы MEL
- https://google.github.io/tacotron/publications/tacotron2
- Wavenet
- Такотрон-Такотрон: к сквозному синтезу речи
- https://google.github.io/tacotron/publications/tacotron
- Гриффин-Лим
Внося
Тодо