Fantastische TTS-Samples
Liste der TTS -Papiere mit Audioproben, die von den Autoren bereitgestellt werden. Die letzten Zeilen jedes Papiers zeigen die verwendete Spektrogramminversion (Vocoder).
Für eine umfassendere Liste wichtiger TTS-Artikel empfehle ich das Lesen von XCMYZ/Sprach-Synthese-Papier, das von Zhengxi Liu geschrieben wurde.
2020
- Fastpitch-Fastpitch: Parallel Text-to-Speech mit der Pitch-Vorhersage
- https://fastpitch.github.io/
- Wellenlow
- Isst-End-to-End-kontroverse Text-zu-Sprache
- https://deepmind.com/research/publications/end-to-end-adversarial-text-tospeech
- End-to-End-Modell
- GLOW-TTS-GLOW-TTS: Ein generativer Fluss für Text-zu-Sprache über monotonische Ausrichtungssuche
- https://jaywalnut310.github.io/glow-tts-demo
- Wellenlow
- Flowtron-Flowtron: Ein autoregressives flowbasiertes generatives Netzwerk für die Text-zu-Sprache-Synthese
- https://nv-adlr.github.io/flowtron
- Wellenlow
2019
- Tacotron2+DCA-Ort-relative Aufmerksamkeitsmechanismen für eine robuste Sprachsynthese mit langer Form
- https://google.github.io/tacotron/publications/location_relative_attention
- Ravernn
- GaN -TTS - High -Fidelity -Sprachsynthese mit gegnerischen Netzwerken
- https://storage.googleapis.com/deepmind-media/research/abstract.wav
- End-to-End-Modell (auf 200 Hz Sprach- und Protokoll-Pitch-Funktionen aufgebaut)
- Mehrsprachiger Tacotron2-Lernen, fließend in einer Fremdsprache zu sprechen
- https://google.github.io/tacotron/publications/multilingual
- Ravernn
- Meldung - Meldung: Ein generatives Modell für Audio in der Frequenzdomäne
- https://audio-amples.github.io
- https://sjvasquez.github.io/blog/Mellnet
- Gradientenbasierte Spektrogramminversion
- Fastspeech - Fastspeech: Fast, Robust und kontrollierbarer Text zur Sprache
- https://speechresearch.github.io/fastspeech
- Wellenlow
- Paranet-Paralleler neuronaler Text-zu-Sprache
- https://parallel-neural-tts-demo.github.io
- Wavevae, Klarinette, Wellenet
2018
- Transformator -TTS - Neuronale Sprachsynthese mit Transformator -Netzwerk
- https://neuralts.github.io/transformertts
- Wavenet
- Multi-Sprecher-Tacotron2-Übertragungslernen von der Überprüfung der Lautsprecher auf Multispeaker-Text-zu-Sprache-Synthese
- https://google.github.io/tacotron/publications/speaker_adaptation
- Wavenet
- TACOTRON2+GST-STYLE-Token: unbeaufsichtigte Modellierung, Kontrolle und Übertragung in der End-to-End-Sprachsynthese
- https://google.github.io/tacotron/publications/global_style_tokens
- Griffin-lim
2017
- Tacotron2 - natürliche TTS
- https://google.github.io/tacotron/publications/tacotron2
- Wavenet
- Tacotron-Tacotron: Auf dem Weg zu End-to-End-Sprachsynthese
- https://google.github.io/tacotron/publications/tacotron
- Griffin-lim
Beitragen
Todo