Awesome-tts-amostras
Lista de artigos TTS com amostras de áudio fornecidas pelos autores. As últimas linhas de cada artigo mostram a inversão do espectrograma (vocoder) sendo usada.
Para uma lista mais abrangente de documentos importantes do TTS, recomendo a leitura do XCMYZ/Sonntese-Síntese, escrito por Zhengxi Liu.
2020
- FastPitch-FastPitch: Parallel Text-topeel com previsão de pitch
- https://fastpitch.github.io/
- Waveglow
- EATS-Texto adversário de ponta a ponta
- https://deepmind.com/research/publications/end-end-adverssarial-text-to-speech
- Modelo de ponta a ponta
- GLOW-TTS-GLOW-TTS: Um fluxo generativo para a fala em fala através da pesquisa de alinhamento monotônico
- https://jaywalnut310.github.io/glow-tts-demo
- Waveglow
- Flowtron-Flowtron: uma rede generativa autorregressiva baseada em fluxo para síntese de texto em fala
- https://nv-adlr.github.io/flowtron
- Waveglow
2019
- Tacotron2+DCA-Mecanismos de atenção relativos à localização para síntese de fala robusta de forma longa
- https://google.github.io/tacotron/publications/location_relative_attent
- Wavernn
- GAN -TTS - Síntese de fala de alta fidelidade com redes adversárias
- https://storage.googleapis.com/deepmind-media/research/abstract.wav
- Modelo de ponta a ponta (construído sobre os recursos de 200Hz lingüístico e log de log)
- Tacotron2 multilingual-Aprendendo a falar fluentemente em uma língua estrangeira: síntese multilíngue de fala e clonagem de voz entre linguagem cruzada
- https://google.github.io/tacotron/publications/multilinguly
- Wavernn
- MELNET - MELNET: Um modelo generativo para áudio no domínio da frequência
- https://audio-samples.github.io
- https://sjvasquez.github.io/blog/melnet
- Inversão de espectrograma baseada em gradiente
- FastSpeech - FastSpeech: texto rápido, robusto e controlável para a fala
- https://speechresearch.github.io/fastspeech
- Waveglow
- Paranet-Paralela a falar em texto neural em fala
- https://parallel-neural-tts-demo.github.io
- Wavevae, clarinete, wavenet
2018
- Transformer -tts - Síntese de fala neural com rede de transformadores
- https://neuraltts.github.io/transformertts
- Wavenet
- TACOTRON2 MULTI-FEITO-Aprendizagem de transferência da verificação do alto-falante para a síntese de texto para fala multispica.
- https://google.github.io/tacotron/publications/speaker_adapation
- Wavenet
- TACOTRON2+GST-TOKENS DE ESTILO: modelagem de estilo, controle e transferência de estilo não supervisionado na síntese de fala de ponta a ponta
- https://google.github.io/tacotron/publications/global_style_tokens
- Griffin-Lim
2017
- TACOTRON2 - Síntese natural de TTS por condicionamento WaveNet em previsões de espectrograma MEL
- https://google.github.io/tacotron/publications/tacotron2
- Wavenet
- Tacotron-Tacotron: Rumo à síntese de fala de ponta a ponta
- https://google.github.io/tacotron/publications/tacotron
- Griffin-Lim
Contribuindo
PENDÊNCIA