Eine Papier- und Projektliste über die neueste Sprachsynthese , Text-to-Speech (TTS) , Sanging Voice-Synthese (SVS) , Voice Conversion (VC) , Singen Voice Conversion (SVC) und verwandte interessante Werke (wie Musiksynthese , automatische Musiktranskription , automatische MOS-Vorhersage , SSL-basierte ASR , asr, ... usw.).
Willkommen bei PR oder kontaktieren Sie mich per E -Mail ([email protected]), um Papiere und Arbeiten zu aktualisieren.
IEEE/ACM TASLP, IEEE JSTSP, JSLHR, IEEE TPAMI
Neuraips, ICLR, ICML, Ijai, AAAI, ACL, NAACL, EMNLP, ISMIR, ACM MM, ICASSP, Interspeech, ICME
ASRU, SLT
[ 2022 ]
Learn2Sing 2.0: Diffusion und gegenseitige Informationsbasierte Zielsprecher SVS durch Lernen vom Gesangslehrer | Interspeech 2022 | ✔️Code | Demo
Ein hierarchischer Repräsentation Framework für One-Shot-Gesangsstimmungsumwandlung | Interspeech 2022 | Demo
Verbesserung der Konvertierung der kontroversigen Wellenformgenerierung mithilfe von harmonischen Signalen | ICASSP 2022 | Demo
[ 2021 ]
Diffsvc: Ein diffusions -probabilistisches Modell für die Gesangsstimme -Konvertierung | ASRU 2021 | Demo
Steuerbare und interpretierbare Gesangsprachabteilung über Asseme-VC | Neurips 2021 Workshop | Demo
Auf dem Weg zu hohem Fidelity-Gesangsumwandlung mit akustischer Referenz und kontrastiver Vorhersagekodierung | 2021/10 | Demo
FASTSVC: Fast-Domänen-Gesangssprachumwandlung mit der linearen Merkmalsmodulation | ICME 2021 | Demo
Unbeaufsichtigtes Wellenet-basierter Gesangssprachumbau mithilfe von Tonhöhen Augmentation und Zweiphasenansatz | 2021/07 | ✔️Code | Demo
[ 2020 ]
Null-Shot-Gesangsstimmungsumwandlung | Ismir 2020 | Demo
Phonetische Posteriorgrams basiert auf vielen zu vielen zu vielen Gesangssprachkonvertierungen über das kontroverse Training | 2020/12 | Demo | Inoffizieller Code
Durian-SC: Dauer informiertes Aufmerksamkeitsnetzwerk basiert auf dem Gesangsumwandlungssystem | Interspeech 2020 | Demo
Unbeaufsichtigtes Cross-Domänen-Gesangsstimmungsumbau | Interspeech 2020 | Demo
PitchNet: Unbeaufsichtigtes Gesangssprachumwandlungsumsatz mit Pitchgedessennetzwerk | ICASSP 2020 | Demo
VAW-GAN für das Gesangsprachumbau mit nichtparallelen Trainingsdaten | Apsipa 2020 | ✔️Code | Demo
M4SINGER: Eine Multi-Stil-, Multi-Sänger- und musikalische Partitur sorgte für Mandarin Singing Corpus | Neurips 2022 | ? Bewerben & herunterladen | Demo
Nus-48e gesungen und gesprochener Texte Corpus | ? Bewerben und herunterladen
NHSS: Eine Paralleldatenbank mit Sprache und Gesang | ? Bewerben und herunterladen
[ 2022 ]
[ 2021 ]
Untersuchung von Zeitfrequenzdarstellungen für die Extraktion von Audiofunktionen in der Klassifizierung der Gesangstechnik | Apsipa 2021
Null-Shot-Gesangstechnikkonvertierung | CMMR 2021
[ 2022 ]
Lernrauschenunabhängige Sprachrepräsentation für eine hochwertige Sprachumwandlung für laute Zielredner | Interspeech 2022 | Demo
GLOW-WAVEGAN 2: Hochwertiges Null-Shot-Text-zu-Sprach-Synthese und jegliche Sprachumwandlung | Interspeech 2022 | Demo
Diffusionsbasierte Sprachumwandlung mit schnellem Maximum-Likelihood-Stichproben-Schema | ICLR 2022 | ✔️Code | Demo
Yourtts: Auf dem Weg zu Null-Shot-Multi-Sprecher-TTs und Null-Shot-Sprachumwandlung für alle | ICML 2022 | ✔️Code | Demo | Demo | Blog
Eine vergleichende Untersuchung der selbstbewerteten Sprachrepräsentationsbasis-Sprachumwandlung | IEEE JSTSP 2022/07
S3PRL-VC: Open-Source-Sprachumwandlungs-Framework mit selbstversorgungen Sprachdarstellungen | ICASSP 2022 | ✔️Code
Ein Vergleich diskreter und weicher Spracheinheiten zur verbesserten Sprachumwandlung | ICASSP 2022 | ✔️Code | Demo
ASSE-VC: Realistische Sprachumwandlung durch Zusammenstellung moderner Sprachsynthese-Techniken | ICASSP 2022 | ✔️Code | Demo
NVC-NET: End-to-End-Konvertierung der kontroversen Sprache | ICASSP 2022 | ✔️Code | Demo
Robustes entwirrtes Variationssprachrepräsentation Lernen für die Null-Shot-Sprachumwandlung | ICASSP 2022 | Demo
Training robuster Zero-Shot-Sprachkonvertierungsmodelle mit selbstüberwachenden Merkmalen | ICASSP 2022 | Demo
Auf dem Weg zu Degradation-Robust Voice Conversion | ICASSP 2022
DGC-Vektor: Ein neuer Lautsprecher, der für die Null-Shot-Sprachumwandlung einbettet | ICASSP 2022 | Demo
End-to-End-Sprachstil-Übertragung von Null-Schotten mit Standort-Variablen-Wälzungen | 2022/05 | Demo
[ 2021 ]
Auf Prosody -Modellierung für ASR+TTS -basierte Sprachumwandlung | ASRU 2021 | Demo
Neuronale Analyse und Synthese: Rekonstruktion der Sprache aus selbstsütigen Darstellungen | Neurips 2021 | Demo | Inoffizieller Code
MediumVC: Jegliche Sprachumwandlung mit synthetischen Reden mit spezifischem Lautsprecher als Intermedium-Merkmale | 2021/10 | ✔️Code | Demo
STARGANV2-VC: Ein vielfältiger, unbeaufsichtigter, nicht paralleler Rahmen für die natürliche Sprachumwandlung | Interspeech 2021 Best Paper Award | ✔️Code | Demo
S2VC: Ein Framework für jegliche Sprachumwandlung mit selbst überprüften vorbereiteten Darstellungen | Interspeech 2021 | ✔️Code | Demo
Viele-zu-Viele-Sprachkonvertierungsfunktionen Disentanglement unter Verwendung von Variationsautocoder | Interspeech 2021 | ✔️Code | Demo
Sprachresynthese aus diskreten, entwirrten selbstbewerteten Darstellungen | Interspeech 2021 | Demo
Verbesserung der Übertragung des Sprachstils mit Null-Shot-Übertragung durch entschärftes Repräsentation Lernen | ICLR 2021
Globaler Rhythmusstil -Transfer ohne Texttranskriptionen | ICML 2021 | ✔️Code
Wieder-VC: Eine One-Shot-Sprachumwandlung mit Aktivierungsanleitung und adaptiver Instanznormalisierung | ICASSP 2021 | ✔️Code | Demo
Jede zu viele Sprachumwandlung mit standort-relativer Sequenz-zu-Sequenz-Modellierung | IEEE/ACM TASLP 2021/05 | ✔️Code | Demo
[ 2020 ]
Ein Überblick über die Sprachumwandlung und ihre Herausforderungen: Von statistischer Modellierung bis zu Deep Learning | IEEE/ACM TASLP 2020/11
Unbeaufsichtigtes Sprachabzug über Triple Information Engpass | ICML 2020 | ✔️Code
[ 2019 ]
One-Shot-Sprachumwandlung durch Trennung von Lautsprechern und Inhaltsdarstellungen mit Instanznormalisierung | Interspeech 2019 | ✔️Code
AUTOVC: Sprachstil-Übertragung von Null-Shot-Style mit nur AutoEncoder-Verlust | ICML 2019 | ✔️Code | Demo
CSTR VCTK Corpus: English Multi-Speaker Corpus für CSTR-Sprachkloning-Toolkit | 2019 | ? Bewerben und herunterladen
Aishell-3: Ein Multi-Sprecher-Mandarin-TTS-Corpus und die Baselines | 2020 | ? Bewerben & herunterladen | Demo
Aishell-2: Mandarin-ASR-Forschung in die industrielle Skala | 2018 | ? Bewerben und herunterladen
Aishell-1: Ein Open-Source-Mandarin-Sprachkorpus und eine Basis der Spracherkennung | 2017 | ? Bewerben und herunterladen
[ 2022 ]
Entspannung des emotionalen Stils und der Lautsprecheridentität für die Ausdrucksstimmungsumwandlung | Interspeech 2022 | Demo
Cross-Speaker-Emotionentransfer basierend auf Prosody-Kompensation für die End-to-End-Sprachsynthese | Interspeech 2022 | Demo
Emotionsintensität und ihre Kontrolle über die Umstellung emotionaler Stimme | IEEE -Transaktionen zum affektiven Computing 2022/07 | ✔️Code | Demo
Textlose Sprachemotionsumwandlung unter Verwendung diskreter und zerlegter Darstellungen | 202202 | Demo
[ 2021 ]
[ 2020 ]
Konvertieren der Emotionen von jemandem: Auf dem Weg zu sprecherunabhängigen emotionalen Sprachumwandlung | Interspeech 2020 | ✔️Code | Demo
Transformieren von Spektrum und Profis für die Umwandlung emotionaler Sprache mit nichtparallelen Trainingsdaten | Odyssey 2020 | ✔️Code | Demo
[ 2022 ]
Muskits: Ein End-to-End-Musikverarbeitungs-Toolkit für die Gesangs-Sprachsynthese | Interspeech 2022 | ✔️Code
Singaug: Datenvergrößerung für die Gesangs-Sprachsynthese mit zykluskonsistenter Trainingsstrategie | Interspeech 2022 | ✔️Code
Wesinger: Daten-ausgelöste Gesangssynthese mit Hilfsverlusten | Interspeech 2022 | Demo
Wesinger 2: Voll parallele Gesangssynthese der Gesangsstunde über ein Multi-Sänger-Bedingungsgegner | 2022/08 | Demo
Deep -Lern -Ansätze bei Themen der Singen Informationsverarbeitung | IEEE/ACM TASLP 2022/07
Lernen der Schönheit in Liedern: Neuronales Gesangsprachverschäuber | ACL 2022 | ✔️Code | Demo
Diffsinger: Singensynthese über flacher Diffusionsmechanismus | AAAI 2022 | ✔️Code | Demo
[ 2021 ]
[ 2020 ]
M4SINGER: Eine Multi-Stil-, Multi-Sänger- und musikalische Partitur sorgte für Mandarin Singing Corpus | Neurips 2022 | ? Bewerben & herunterladen | Demo
Popcs | AAAI 2022 | ? Bewerben und herunterladen
OpenCPOP: Ein hochwertiger Open-Source-Chinese-beliebtes Song Corpus für die Gesangs-Sprachsynthese | Interspeech 2022 | ? Bewerben und herunterladen
[ 2022 ]
Prodiff: Progressives schnelles Diffusionsmodell für hochwertige Text-zu-Sprache | ACM MM 2022 | ✔️Code | Demo
BDDM: Bilaterale Denoising-Diffusionsmodelle für schnelle und qualitativ hochwertige Sprachsynthese | ICLR 2022 | ✔️Code | Demo
Fastdiff: Ein schnelles bedingtes Diffusionsmodell für eine hochwertige Sprachsynthese | IJCAI 2022 | ✔️Code | Demo
[ 2022 ]
DDSP-basierte Gesangsvokoder: Ein neuer subtraktiver Synthesizer und eine umfassende Bewertung | Ismir 2022 | ✔️Code | Demo
Fastdiff: Ein schnelles bedingtes Diffusionsmodell für eine hochwertige Sprachsynthese | IJCAI 2022 | ✔️Code | Demo
BINAURALABEGRADGE: Ein zweistufiges konditionales Diffusionsprobabilistikmodell für die binaurale Audio-Synthese | 2022/05 | Demo
[ 2021 ]
Multi-Sänger: Schneller Multi-Sänger-Gesangs-Sprachvokoder mit einem großen Corpus | ACM MM 2021 | ? Bewerben & herunterladen | ✔️Code | Demo
Wanderebad 2: Iterative Verfeinerung für die Text-zu-Sprache-Synthese | Interspeech 2021 | Demo
Diffwave: Ein vielseitiges Diffusionsmodell für die Audio -Synthese | ICLR 2021 | ✔️Code | Demo
Wanderadrad: Schätzung von Gradienten für die Wellenformgenerierung | ICLR 2021 | Demo
[ 2020 ]
Hifi-Gan: Generative kontroverse Netzwerke für effiziente und High-Fidelity-Sprachsynthese | Neurips 2020 | ✔️Code | Demo
Multi-Band-Melgan: schnellere Wellenformgenerierung für hochwertige Text-zu-Sprache | Interspeech 2020 | Demo
Paralleler Wellengegan: Ein Modell der schnellen Wellenformgenerierung basierend auf generativen widersprüchlichen Netzwerken mit Multi-Auflösungsspektrogram | ICASSP 2020 | Demo | Inoffizieller Code
[ 2019 ]
Melgan: Generative widersprüchliche Netzwerke für die bedingte Wellenform -Synthese | Neurips 2019 | ✔️Code | Demo
Um robuste universelle neuronale Vokodierung zu erreichen | Interspeech 2019 | ✔️Code | Demo | Inoffizieller Code
[ 2022 ]
Multi-Instrument-Musiksynthese mit Spektrogrammdiffusion | Ismir 2022 | ✔️Code | Demo
Musika! Schnelle unendliche Wellenform Musikgenerierung | Ismir 2022 | ✔️Code | Demo
[ 2022 ]
[ 2021 ]
[ 2022 ]
Unispeech-sa: Universal Sprachrepräsentation Lernen mit Sprecher bewusst vor der Ausbildung | ICASSP 2022 | ✔️Code | ✔️Code
Leistungseffizienz-Kompromisse bei unbeaufsichtigten Voraussetzungen für die Spracherkennung | ICASSP 2022 | ✔️Code | ✔️Code
Pseudomarkierung für massiv mehrsprachige Spracherkennung | ICASSP 2022 | ✔️Code | ✔️Code
WAVLM: groß angelegte selbstüberwachende Vorausbildung für die Sprachverarbeitung mit vollem Stapel | IEEE JSTSP 2022/06 | ✔️Code | ✔️Code
[ 2021 ]
XLS-R: Selbsterdurchschnittlich lingaler Sprachrepräsentation Lernen im Maßstab | 2021/12 | ✔️Code | ✔️Code
Einfache und effektive Zero-Shot-Kreuzungserkennung | 2021/09 | ✔️Code | ✔️Code
TERA: SELTSCHAFTE VERRAGE DER SPRECHUNG VON SPRECHUNG VON TRANSFORMUSER COMERS FÜR SPRECHEN | IEEE/ACM TASLP 2021/08 | ✔️Code
Unispeech: Unified Speech Repräsentation Lernen mit beschrifteten und nicht markierten Daten | ICML 2021 | ✔️Code | ✔️Code | ✔️Code
Hubert: Selbsterdurchschnittliche Sprachrepräsentation Lernen durch maskierte Vorhersage versteckter Einheiten | IEEE/ACM TASLP 2021/06 | ✔️Code | ✔️Code
[ 2020 ]
WAV2VEC 2.0: Ein Rahmen für das selbstbewertete Erlernen von Sprachdarstellungen | Neurips 2020 | ✔️Code | ✔️Code
VQ-WAV2VEC: Selbstüberprüftes Lernen diskreter Sprachrepräsentationen | ICLR 2020 | ✔️Code | ✔️Code
Mockingjay: unbeaufsichtigte Sprachrepräsentation Lernen mit tiefen bidirektionalen Transformator -Encodern | ICASSP 2020 | ✔️Code
Unbeaufsichtigtes Kreuzungs-Repräsentation Lernen für Spracherkennung | 2020/06 | ✔️Code | ✔️Code
FairSeq S2T: Fast Speech-to-Texting-Modellierung mit FairSeq | AACL 2020 | ✔️Code | ✔️Code
[ 2019 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
[ 2022 ]
[ 2022 ]
[ 2021 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
Voice Conversion Challenge 2020 | ? Bewerben & herunterladen | ✔️Code
Die Blizzard Challenge