échantillons de tts géniaux
Liste des articles TTS avec des échantillons audio fournis par les auteurs. Les dernières lignes de chaque article montrent que l'inversion du spectrogramme (vocodeur) est utilisée.
Pour une liste plus complète des articles TTS importants, je recommande la lecture de XCMYZ / Papier de synthèse de la parole écrite par Zhengxi Liu.
2020
- FASTPITCH - FASTPITCH: Texte à dispection parallèle avec prédiction de hauteur
- https://fastpitch.github.io/
- Lueur
- Eats - Texte à dispection contradictoire de bout en bout
- https://deepmind.com/research/publications/end-to-end-adversarial-text-to-steech
- Modèle de bout en bout
- Glow-TTS - Glow-TT
- https://jaywalnut310.github.io/glow-tts-demo
- Lueur
- Flowtron - Flowtron: un réseau génératif de flux autorégressif pour la synthèse du texte-parole
- https://nv-adlr.github.io/flowtron
- Lueur
2019
- Tacotron2 + DCA - Mécanismes d'attention relatives à l'emplacement pour une synthèse de la parole robuste
- https://google.github.io/tacotron/publications/location_relative_attention
- Wavernn
- GAN-TTS - Synthèse de la parole haute fidélité avec réseaux adversaires
- https://storage.googleapis.com/deepmind-media/research/abstract.wav
- Modèle de bout en bout (construit sur des fonctionnalités linguistiques et de pitch linguistique et journal)
- Tacotron2 multilingue - Apprendre à parler couramment dans une langue étrangère: synthèse de la parole multilingue et clonage vocal transversal
- https://google.github.io/tacotron/publications/multilingal
- Wavernn
- Melnet - Melnet: un modèle génératif pour l'audio dans le domaine de fréquence
- https://audio-semps.github.io
- https://sjvasquez.github.io/blog/melnet
- Inversion du spectrogramme basé sur le gradient
- FastSpeech - FastSpeech: texte rapide, robuste et contrôlable à la parole
- https://speechresearch.github.io/fastSpeech
- Lueur
- Paranet - parallèle neuronal
- https://parallel-neural-tts-demo.github.io
- Vave, clarinette, wavenet
2018
- Transformateur-TTS - Synthèse de la parole neurale avec réseau de transformateurs
- https://nealltts.github.io/transformertts
- Wavenet
- Tacotron2 multi-haut-parleurs - Transfert d'apprentissage de la vérification du haut-parleur à la synthèse de texte-vocation multi-rédacteur
- https://google.github.io/tacotron/publications/speaker_adaptation
- Wavenet
- Tacotron2 + GST - Tokens de style: modélisation, contrôle et transfert de style non supervisé dans la synthèse de la parole de bout en bout
- https://google.github.io/tacotron/publications/global_style_tokens
- Griffin-lim
2017
- Tacotron2 - Synthèse TTS naturelle en conditionnant les prédictions du wavenet sur le spectrogramme MEL
- https://google.github.io/tacotron/publications/tacotron2
- Wavenet
- Tacotron - Tacotron: Vers la synthèse de la parole de bout en bout
- https://google.github.io/tacotron/publications/tacotron
- Griffin-lim
Contributif
FAIRE