Une liste d'articles et de projets sur la synthèse de la parole de pointe, le texte-parole (TTS) , la synthèse vocale chanteuse (SVS) , la conversion vocale (VC) , la conversion vocale chanteuse (SVC) et les œuvres intéressantes connexes (telles que la synthèse musicale , la transcription musicale automatique , la prédiction automatique MOS , ASR basé sur SSL , ... etc.).
Bienvenue dans PR ou contactez-moi par e-mail ([email protected]) pour mettre à jour les papiers et les travaux.
IEEE / ACM TASLP, IEEE JSTSP, JSLHR, IEEE TPAMI
Neuraips, ICLR, ICML, IJAI, AAAI, ACL, NAACL, EMNLP, ISMIR, ACM MM, ICASSP, IntelleSpeech, ICME
ASRU, SLT
[ 2022 ]
Learn2Sing 2.0: SVS de la diffusion et de l'information mutuelle SVS en apprenant du professeur de chant | Intere-Speech 2022 | ✔️ Code | Démo
Un cadre de représentation de haut-parleur hiérarchique pour la conversion vocale de chant unique | Intere-Speech 2022 | Démo
Amélioration de la génération de la génération d'onde adversaire basée sur la génération de chants avec des signaux harmoniques | ICASSP 2022 | Démo
[ 2021 ]
Diffsvc: un modèle probabiliste de diffusion pour chanter la conversion vocale | ASRU 2021 | Démo
Décomposition de voix de chant contrôlable et interprétable via ASSEMP-VC | Atelier des Neirips 2021 | Démo
Vers la conversion vocale de chant à haute fidélité avec référence acoustique et codage prédictif contrastif | 2021/10 | Démo
FastSVC: Conversion vocale de chant transversale rapide avec une modulation linéaire en fonction des fonctionnalités | ICME 2021 | Démo
Conversion de voix chantante à base de wavenet non supervisée en utilisant l'augmentation de la hauteur et l'approche biphasée | 2021/07 | ✔️ Code | Démo
[ 2020 ]
Conversion vocale de chant zéro | Ismir 2020 | Démo
Phonétique PostériaGrams basé sur la conversion de la voix chantante de plusieurs à plusieurs via une formation contradictoire | 2020/12 | Démo | Code non officiel
Durian-SC: Durée Système de conversion vocale basé sur le réseau d'attention éclairé | IntereSpeech 2020 | Démo
Conversion de la voix de chant croisé sans surveillance | IntereSpeech 2020 | Démo
Pitchnet: Conversion vocale de chant non supervisée avec réseau adversaire Pitch | ICASSP 2020 | Démo
VAW-GAN pour chanter la conversion vocale avec des données de formation non parallèles | APSIPA 2020 | ✔️ Code | Démo
M4Singer: Une partition multi-style, multi-monncule et musicale a fourni un corpus de chant mandarin | Neirips 2022 | ? Appliquer et télécharger | Démo
NUS-48E chanté et parlées paroles corpus | ? Appliquer et télécharger
NHSS: une base de données parallèle de discours et de chant | ? Appliquer et télécharger
[ 2022 ]
[ 2021 ]
Enquêter sur les représentations de fréquence temporelle pour l'extraction des fonctionnalités audio dans la classification des techniques de chant | Apsipa 2021
Conversion de techniques de chant zéro | CMMR 2021
[ 2022 ]
Apprendre la représentation de la parole indépendante du bruit pour la conversion vocale de haute qualité pour les haut-parleurs cibles bruyants | Intere-Speech 2022 | Démo
Glow-Wavegan 2: Synthèse de texte à dispection zéro de haute qualité et conversion vocale de toute autre chose | Intere-Speech 2022 | Démo
Conversion vocale basée sur la diffusion avec un schéma d'échantillonnage de vraisemblance maximum rapide | ICLR 2022 | ✔️ Code | Démo
YOTTTS: Vers des TT multi-partenaires zéro et une conversion vocale zéro-shot pour tout le monde | ICML 2022 | ✔️ Code | Démo | Démo | Bloguer
Une étude comparative de la conversion vocale basée sur la représentation de la parole auto-supervisée | IEEE JSTSP 2022/07
S3PRL-VC: Cadre de conversion vocale open-source avec représentations de la parole auto-supervisées | ICASSP 2022 | ✔️ Code
Une comparaison des unités de parole discrètes et douces pour une meilleure conversion vocale | ICASSP 2022 | ✔️ Code | Démo
Assemblée VC: Conversion de la voix réaliste en assemblant les techniques de synthèse de la parole modernes | ICASSP 2022 | ✔️ Code | Démo
NVC-NET: Conversion vocale adversaire de bout en bout | ICASSP 2022 | ✔️ Code | Démo
Représentation de la parole variationnelle démunie robuste apprentissage pour la conversion vocale de zéro | ICASSP 2022 | Démo
Formation des modèles de conversion vocale robustes avec des fonctionnalités auto-supervisées | ICASSP 2022 | Démo
Vers la dégradation de la conversion vocale de la robuste | ICASSP 2022
DGC-Vector: Un nouvel haut-parleur incorporant pour la conversion vocale de zéro | ICASSP 2022 | Démo
Transfert de style vocal zéro de bout en bout avec des convolutions à variation de l'emplacement | 2022/05 | Démo
[ 2021 ]
Sur la modélisation de la prosodie pour la conversion vocale basée sur ASR + TTS | ASRU 2021 | Démo
Analyse neuronale et synthèse: reconstruire la parole à partir de représentations auto-supervisées | Neirips 2021 | Démo | Code non officiel
MediumVC: Conversion vocale n'importe quoi à l'aide de discours synthétiques de parole spécifique comme caractéristiques d'intermédiaire | 2021/10 | ✔️ Code | Démo
Starganv2-VC: Un cadre diversifié, non supervisé et non parallèle pour la conversion vocale à consonance naturelle | IntereSpeech 2021 Meilleur papier | ✔️ Code | Démo
S2VC: Un cadre pour la conversion vocale n'importe quelle autre avec des représentations pré-trainées auto-supervisées | Intere-Speech 2021 | ✔️ Code | Démo
Much-to-plusieurs Débardeur basée sur la conversion vocale Démassement à l'aide de AutoEncoder variationnel | Intere-Speech 2021 | ✔️ Code | Démo
Resynthèse de la parole à partir de représentations auto-supervisées discrètes démodées | Intere-Speech 2021 | Démo
Amélioration du transfert de style vocal zéro via l'apprentissage de la représentation démêlée | ICLR 2021
Transfert de style rythmique global sans transcriptions de texte | ICML 2021 | ✔️ Code
Encore une fois-VC: une conversion vocale à un coup utilisant le guidage d'activation et la normalisation des instances adaptatives | ICASSP 2021 | ✔️ Code | Démo
Conversion vocale tout-à-contre avec modélisation de séquence à séquence liée à l'emplacement | IEEE / ACM TASLP 2021/05 | ✔️ Code | Démo
[ 2020 ]
Un aperçu de la conversion vocale et de ses défis: de la modélisation statistique à l'apprentissage en profondeur | IEEE / ACM TASLP 2020/11
Décomposition de la parole non supervisée via un goulot d'étranglement à triple information | ICML 2020 | ✔️ Code
[ 2019 ]
Conversion vocale à un coup en séparant les représentations du haut-parleur et du contenu avec normalisation des instances | IntereSpeech 2019 | ✔️ Code
AUTOVC: transfert de style vocal zéro avec uniquement la perte d'autoencoder | ICML 2019 | ✔️ Code | Démo
CORPUS CSTR VCTK: Corpus multi-haut-parleurs anglais pour la boîte à outils de clonage vocale CSTR | 2019 | ? Appliquer et télécharger
Aishell-3: Un corpus Mandarin TTS multi-haut-parleurs et les lignes de base | 2020 | ? Appliquer et télécharger | Démo
Aishell-2: Transformer la recherche sur le mandarin ASR en échelle industrielle | 2018 | ? Appliquer et télécharger
Aishell-1: un corpus de discours de mandarin open source et une base de réception de la parole | 2017 | ? Appliquer et télécharger
[ 2022 ]
Désoccasion du style émotionnel et de l'identité des haut-parleurs pour la conversion de la voix expressive | Intere-Speech 2022 | Démo
Transfert d'émotion entre les ordres en vertu de la rémunération de la prosodie pour la synthèse de la parole de bout en bout | Intere-Speech 2022 | Démo
Intensité des émotions et son contrôle de la conversion de la voix émotionnelle | Transactions IEEE sur l'informatique affective 2022/07 | ✔️ Code | Démo
Conversion d'émotion de la parole sans texte utilisant des représentations discrètes et décomposées | 202202 | Démo
[ 2021 ]
[ 2020 ]
Convertir l'émotion de quiconque: vers la conversion de la voix émotionnelle indépendante du locuteur | IntereSpeech 2020 | ✔️ Code | Démo
Transformer le spectre et la prosodie pour la conversion de la voix émotionnelle avec des données de formation non parallèles | Odyssey 2020 | ✔️ Code | Démo
[ 2022 ]
Muskits: une boîte à outils de traitement musicale de bout en bout pour chanter la synthèse vocale | Intere-Speech 2022 | ✔️ Code
SINGAUG: Augmentation des données pour la synthèse vocale chanteuse avec stratégie de formation consciente du cycle | Intere-Speech 2022 | ✔️ Code
Wesinger: Synthèse vocale chantante aux données avec pertes auxiliaires | Intere-Speech 2022 | Démo
Wesinger 2: Synthèse vocale chantante entièrement parallèle via une formation contradictoire conditionnelle multi-monnaie | 2022/08 | Démo
Approches d'apprentissage en profondeur dans des sujets de traitement de l'information chantant | IEEE / ACM TASLP 2022/07
Apprendre la beauté dans les chansons: Neural Singing Voice Embellier | ACL 2022 | ✔️ Code | Démo
Diffsinger: Singing vocal Synthesis via un mécanisme de diffusion superficiel | AAAI 2022 | ✔️ Code | Démo
[ 2021 ]
[ 2020 ]
M4Singer: Une partition multi-style, multi-monncule et musicale a fourni un corpus de chant mandarin | Neirips 2022 | ? Appliquer et télécharger | Démo
POPCS | AAAI 2022 | ? Appliquer et télécharger
OpenCPOP: Un corpus de chanson populaire chinois open source de haute qualité pour chanter la synthèse vocale | Intere-Speech 2022 | ? Appliquer et télécharger
[ 2022 ]
Prodiff: modèle de diffusion rapide progressive pour le texte à la dissection de haute qualité | ACM MM 2022 | ✔️ Code | Démo
BDDM: Modèles de diffusion bilatérale pour la synthèse de la parole rapide et de haute qualité | ICLR 2022 | ✔️ Code | Démo
FastDiff: un modèle de diffusion conditionnel rapide pour la synthèse de la parole de haute qualité | Ijcai 2022 | ✔️ Code | Démo
[ 2022 ]
Des vocodeurs de chant basés sur le DDSP: un nouveau synthétiseur basé sur soustraction et une évaluation complète | Ismir 2022 | ✔️ Code | Démo
FastDiff: un modèle de diffusion conditionnel rapide pour la synthèse de la parole de haute qualité | Ijcai 2022 | ✔️ Code | Démo
Binauralgrad: Un modèle probabiliste conditionnel à deux étapes de diffusion pour la synthèse audio binaurale | 2022/05 | Démo
[ 2021 ]
Multi-chanteur: Vocage de chant à chanteur multiple rapide avec un corpus à grande échelle | ACM MM 2021 | ? Appliquer et télécharger | ✔️ Code | Démo
Wavegrad 2: raffinement itératif pour la synthèse du texte-dispection | Intere-Speech 2021 | Démo
Diffwave: un modèle de diffusion polyvalent pour la synthèse audio | ICLR 2021 | ✔️ Code | Démo
Grad Wave: Estimation des gradients pour la génération de forme d'onde | ICLR 2021 | Démo
[ 2020 ]
HIFI-GAN: Réseaux adversaires génératifs pour une synthèse de parole efficace et haute fidélité | Neirips 2020 | ✔️ Code | Démo
Multi-Band MELGAN: Génération de forme d'onde plus rapide pour le texte-to-vocation de haute qualité | IntereSpeech 2020 | Démo
Parallel Wavegan: un modèle de génération de format d'onde rapide basé sur des réseaux adversaires génératifs avec spectrogramme multi-résolution | ICASSP 2020 | Démo | Code non officiel
[ 2019 ]
MELGAN: réseaux adversaires génératifs pour la synthèse de la forme d'onde conditionnelle | Neirips 2019 | ✔️ Code | Démo
Vers la réalisation de vocodage neuronal universel robuste | IntereSpeech 2019 | ✔️ Code | Démo | Code non officiel
[ 2022 ]
Synthèse musicale multi-instrument avec diffusion de spectrogramme | Ismir 2022 | ✔️ Code | Démo
Musika! Génération de musique de forme d'onde infinie rapide | Ismir 2022 | ✔️ Code | Démo
[ 2022 ]
[ 2021 ]
[ 2022 ]
UNISEECPH-SAT: Représentation de la parole universelle Apprentissage avec le haut-parleur Ayant la formation pré-formation | ICASSP 2022 | ✔️ Code | ✔️ Code
Compromis d'efficacité des performances en pré-formation non supervisée pour la reconnaissance de la parole | ICASSP 2022 | ✔️ Code | ✔️ Code
Pseudo-étiquetage pour la reconnaissance de la parole massivement multilingue | ICASSP 2022 | ✔️ Code | ✔️ Code
WAVLM: pré-formation auto-supervisée à grande échelle pour le traitement de la parole complète de la pile | IEEE JSTSP 2022/06 | ✔️ Code | ✔️ Code
[ 2021 ]
XLS-R: Représentation de la parole croisée auto-supervisée Apprentissage à l'échelle | 2021/12 | ✔️ Code | ✔️ Code
Reconnaissance de phonèmes inter-lingues à tirs zéro simple et efficace | 2021/09 | ✔️ Code | ✔️ Code
TERA: Apprentissage auto-supervisé de la représentation du codeur de transformateur pour la parole | IEEE / ACM TASLP 2021/08 | ✔️ Code
UNISEECK: Représentation de la parole unifiée Apprentissage avec des données étiquetées et non marquées | ICML 2021 | ✔️ Code | ✔️ Code | ✔️ Code
Hubert: Représentation de la parole auto-supervisée par la prédiction masquée des unités cachées | IEEE / ACM TASLP 2021/06 | ✔️ Code | ✔️ Code
[ 2020 ]
WAV2VEC 2.0: Un cadre pour l'apprentissage auto-supervisé des représentations de la parole | Neirips 2020 | ✔️ Code | ✔️ Code
VQ-WAV2VEC: Apprentissage auto-supervisé des représentations de la parole discrètes | ICLR 2020 | ✔️ Code | ✔️ Code
Mockingjay: Représentation de la parole non supervisée avec des encodeurs de transformateurs bidirectionnels profonds | ICASSP 2020 | ✔️ Code
Représentation inter-linguale non supervisée Apprentissage pour la reconnaissance de la parole | 2020/06 | ✔️ Code | ✔️ Code
FAIRSEQ S2T: Modélisation rapide de la parole avec Fairseq | AACL 2020 | ✔️ Code | ✔️ Code
[ 2019 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
[ 2022 ]
[ 2022 ]
[ 2021 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
Défi de la conversion vocale 2020 | ? Appliquer et télécharger | ✔️ Code
Le défi Blizzard