impresionante-tts-muestras
Lista de documentos TTS con muestras de audio proporcionadas por los autores. Las últimas filas de cada artículo muestran la inversión del espectrograma (Vocoder) que se está utilizando.
Para una lista más completa de documentos de TTS importantes, recomiendo leer xcmyz/-synthesis-papel escrito por zhengxi liu.
2020
- FastPitch-FastPitch: texto a voz paralelo con predicción de tono
- https://fastpitch.github.io/
- Resplandor de onda
- Come-texto a voz de extremo a extremo
- https://deepmind.com/research/publications/end-to-end-adversarial-text-to-spech
- Modelo de extremo a extremo
- GLOW TTS-GLOW TTS: un flujo generativo para texto a voz a través de la búsqueda de alineación monotónica
- https://jaywalnut310.github.io/glow-tts-demo
- Resplandor de onda
- Flowtron-Flowtron: una red generativa basada en flujo autorregresivo para la síntesis de texto a voz
- https://nv-adlr.github.io/flowtron
- Resplandor de onda
2019
- Tacotron2+DCA-Mecanismos de atención relativa a la ubicación para síntesis de habla de forma larga y robusta
- https://google.github.io/tacotron/publications/location_relative_attention
- Wavernn
- Gan -TTS - Síntesis de discurso de alta fidelidad con redes adversas
- https://storage.googleapis.com/deepmind-media/research/abstract.wav
- Modelo de extremo a extremo (construido sobre las características lingüísticas de 200Hz y lingüística de registro)
- Tacotron2 multilingüe2-Aprendizaje a hablar con fluidez en un idioma extranjero: síntesis de discurso multilingüe y clonación de voz cruzada
- https://google.github.io/tacotron/publications/multilingual
- Wavernn
- Melnet - Melnet: un modelo generativo para audio en el dominio de frecuencia
- https://audio-samples.github.io
- https://sjvásquez.github.io/blog/melnet
- Inversión de espectrograma basada en gradiente
- FastSpeech - FastSpeech: texto rápido, robusto y controlable al habla
- https://speechresearch.github.io/fastspeech
- Resplandor de onda
- Paranet-Texto neuronal paralelo a voz
- https://parallel-neural-tts-demo.github.io
- Wavevae, clarinete, Wavenet
2018
- Transformer -TTS - Síntesis de discurso neural con red de transformadores
- https://neuraltts.github.io/transformertts
- Wavenet
- Tacotron2 de múltiples altavoces: transfiera el aprendizaje de la verificación de los altavoces a la síntesis de texto a voz de múltiples
- https://google.github.io/tacotron/publications/speaker_adaptation
- Wavenet
- Tacotron2+GST-Tokens de estilo: modelado de estilo no supervisado, control y transferencia en síntesis de habla de extremo a extremo
- https://google.github.io/tacotron/publications/global_style_tokens
- Griffin-lim
2017
- Tacotron2 - Síntesis de TTS natural mediante acondicionamiento de wavenet en predicciones de espectrograma MEL
- https://google.github.io/tacotron/publications/tacotron2
- Wavenet
- Tacotrón-Tacotrón: hacia la síntesis del habla de extremo a extremo
- https://google.github.io/tacotron/publications/tacotron
- Griffin-lim
Que contribuye
HACER