Awesome Singing Voice Synthesis and Singing Voice Conversion herunterladen - Awesome Singing Voice Synthesis and Singing Voice Conversion Quellcode Download

Awesome Singing Voice Synthesis and Singing Voice Conversion

AI-Quellcode

1.0.0

Herunterladen

Fantastische Gesangs -Voice -Synthese und Gesangsstimmungsumwandlung

Eine Papier- und Projektliste über die neueste Sprachsynthese , Text-to-Speech (TTS) , Sanging Voice-Synthese (SVS) , Voice Conversion (VC) , Singen Voice Conversion (SVC) und verwandte interessante Werke (wie Musiksynthese , automatische Musiktranskription , automatische MOS-Vorhersage , SSL-basierte ASR , asr, ... usw.).

Willkommen bei PR oder kontaktieren Sie mich per E -Mail ([email protected]), um Papiere und Arbeiten zu aktualisieren.

Papierliste

Zeitschriften

IEEE/ACM TASLP, IEEE JSTSP, JSLHR, IEEE TPAMI

Konferenzen

Neuraips, ICLR, ICML, Ijai, AAAI, ACL, NAACL, EMNLP, ISMIR, ACM MM, ICASSP, Interspeech, ICME

Workshops

ASRU, SLT

Sang -Voice -Konvertierung (andere Schlüsselwörter: SVC, Singenstil -Transfer)

[ 2022 ]

Learn2Sing 2.0: Diffusion und gegenseitige Informationsbasierte Zielsprecher SVS durch Lernen vom Gesangslehrer | Interspeech 2022 | ✔️Code | Demo
Ein hierarchischer Repräsentation Framework für One-Shot-Gesangsstimmungsumwandlung | Interspeech 2022 | Demo
Verbesserung der Konvertierung der kontroversigen Wellenformgenerierung mithilfe von harmonischen Signalen | ICASSP 2022 | Demo

[ 2021 ]

Diffsvc: Ein diffusions -probabilistisches Modell für die Gesangsstimme -Konvertierung | ASRU 2021 | Demo
Steuerbare und interpretierbare Gesangsprachabteilung über Asseme-VC | Neurips 2021 Workshop | Demo
Auf dem Weg zu hohem Fidelity-Gesangsumwandlung mit akustischer Referenz und kontrastiver Vorhersagekodierung | 2021/10 | Demo
FASTSVC: Fast-Domänen-Gesangssprachumwandlung mit der linearen Merkmalsmodulation | ICME 2021 | Demo
Unbeaufsichtigtes Wellenet-basierter Gesangssprachumbau mithilfe von Tonhöhen Augmentation und Zweiphasenansatz | 2021/07 | ✔️Code | Demo

[ 2020 ]

Null-Shot-Gesangsstimmungsumwandlung | Ismir 2020 | Demo
Phonetische Posteriorgrams basiert auf vielen zu vielen zu vielen Gesangssprachkonvertierungen über das kontroverse Training | 2020/12 | Demo | Inoffizieller Code
Durian-SC: Dauer informiertes Aufmerksamkeitsnetzwerk basiert auf dem Gesangsumwandlungssystem | Interspeech 2020 | Demo
Unbeaufsichtigtes Cross-Domänen-Gesangsstimmungsumbau | Interspeech 2020 | Demo
PitchNet: Unbeaufsichtigtes Gesangssprachumwandlungsumsatz mit Pitchgedessennetzwerk | ICASSP 2020 | Demo
VAW-GAN für das Gesangsprachumbau mit nichtparallelen Trainingsdaten | Apsipa 2020 | ✔️Code | Demo

Datensatz

M4SINGER: Eine Multi-Stil-, Multi-Sänger- und musikalische Partitur sorgte für Mandarin Singing Corpus | Neurips 2022 | ? Bewerben & herunterladen | Demo
Nus-48e gesungen und gesprochener Texte Corpus | ? Bewerben und herunterladen
NHSS: Eine Paralleldatenbank mit Sprache und Gesang | ? Bewerben und herunterladen

Singenstechnikkonvertierung/Gesangstechnikklassifizierung

[ 2022 ]

Deformierbares CNN und Ungleichgewichtsbewusstseins-Lernen für die Klassifizierung des Gesangstechnikes | Interspeech 2022

[ 2021 ]

Untersuchung von Zeitfrequenzdarstellungen für die Extraktion von Audiofunktionen in der Klassifizierung der Gesangstechnik | Apsipa 2021
Null-Shot-Gesangstechnikkonvertierung | CMMR 2021

Datensatz

Gesang: Ein Gesangs -Sprachdatensatz | Ismir 2018 | ? Bewerben und herunterladen

Voice Conversion (andere Schlüsselwörter: VC, Sprachklonen, Sprachstil -Transfer)

[ 2022 ]

Lernrauschenunabhängige Sprachrepräsentation für eine hochwertige Sprachumwandlung für laute Zielredner | Interspeech 2022 | Demo
GLOW-WAVEGAN 2: Hochwertiges Null-Shot-Text-zu-Sprach-Synthese und jegliche Sprachumwandlung | Interspeech 2022 | Demo
Diffusionsbasierte Sprachumwandlung mit schnellem Maximum-Likelihood-Stichproben-Schema | ICLR 2022 | ✔️Code | Demo
Yourtts: Auf dem Weg zu Null-Shot-Multi-Sprecher-TTs und Null-Shot-Sprachumwandlung für alle | ICML 2022 | ✔️Code | Demo | Demo | Blog
Eine vergleichende Untersuchung der selbstbewerteten Sprachrepräsentationsbasis-Sprachumwandlung | IEEE JSTSP 2022/07
S3PRL-VC: Open-Source-Sprachumwandlungs-Framework mit selbstversorgungen Sprachdarstellungen | ICASSP 2022 | ✔️Code
Ein Vergleich diskreter und weicher Spracheinheiten zur verbesserten Sprachumwandlung | ICASSP 2022 | ✔️Code | Demo
ASSE-VC: Realistische Sprachumwandlung durch Zusammenstellung moderner Sprachsynthese-Techniken | ICASSP 2022 | ✔️Code | Demo
NVC-NET: End-to-End-Konvertierung der kontroversen Sprache | ICASSP 2022 | ✔️Code | Demo
Robustes entwirrtes Variationssprachrepräsentation Lernen für die Null-Shot-Sprachumwandlung | ICASSP 2022 | Demo
Training robuster Zero-Shot-Sprachkonvertierungsmodelle mit selbstüberwachenden Merkmalen | ICASSP 2022 | Demo
Auf dem Weg zu Degradation-Robust Voice Conversion | ICASSP 2022
DGC-Vektor: Ein neuer Lautsprecher, der für die Null-Shot-Sprachumwandlung einbettet | ICASSP 2022 | Demo
End-to-End-Sprachstil-Übertragung von Null-Schotten mit Standort-Variablen-Wälzungen | 2022/05 | Demo

[ 2021 ]

Auf Prosody -Modellierung für ASR+TTS -basierte Sprachumwandlung | ASRU 2021 | Demo
Neuronale Analyse und Synthese: Rekonstruktion der Sprache aus selbstsütigen Darstellungen | Neurips 2021 | Demo | Inoffizieller Code
MediumVC: Jegliche Sprachumwandlung mit synthetischen Reden mit spezifischem Lautsprecher als Intermedium-Merkmale | 2021/10 | ✔️Code | Demo
STARGANV2-VC: Ein vielfältiger, unbeaufsichtigter, nicht paralleler Rahmen für die natürliche Sprachumwandlung | Interspeech 2021 Best Paper Award | ✔️Code | Demo
S2VC: Ein Framework für jegliche Sprachumwandlung mit selbst überprüften vorbereiteten Darstellungen | Interspeech 2021 | ✔️Code | Demo
Viele-zu-Viele-Sprachkonvertierungsfunktionen Disentanglement unter Verwendung von Variationsautocoder | Interspeech 2021 | ✔️Code | Demo
Sprachresynthese aus diskreten, entwirrten selbstbewerteten Darstellungen | Interspeech 2021 | Demo
Verbesserung der Übertragung des Sprachstils mit Null-Shot-Übertragung durch entschärftes Repräsentation Lernen | ICLR 2021
Globaler Rhythmusstil -Transfer ohne Texttranskriptionen | ICML 2021 | ✔️Code
Wieder-VC: Eine One-Shot-Sprachumwandlung mit Aktivierungsanleitung und adaptiver Instanznormalisierung | ICASSP 2021 | ✔️Code | Demo
Jede zu viele Sprachumwandlung mit standort-relativer Sequenz-zu-Sequenz-Modellierung | IEEE/ACM TASLP 2021/05 | ✔️Code | Demo

[ 2020 ]

Ein Überblick über die Sprachumwandlung und ihre Herausforderungen: Von statistischer Modellierung bis zu Deep Learning | IEEE/ACM TASLP 2020/11
Unbeaufsichtigtes Sprachabzug über Triple Information Engpass | ICML 2020 | ✔️Code

[ 2019 ]

One-Shot-Sprachumwandlung durch Trennung von Lautsprechern und Inhaltsdarstellungen mit Instanznormalisierung | Interspeech 2019 | ✔️Code
AUTOVC: Sprachstil-Übertragung von Null-Shot-Style mit nur AutoEncoder-Verlust | ICML 2019 | ✔️Code | Demo

Datensatz

CSTR VCTK Corpus: English Multi-Speaker Corpus für CSTR-Sprachkloning-Toolkit | 2019 | ? Bewerben und herunterladen
Aishell-3: Ein Multi-Sprecher-Mandarin-TTS-Corpus und die Baselines | 2020 | ? Bewerben & herunterladen | Demo
Aishell-2: Mandarin-ASR-Forschung in die industrielle Skala | 2018 | ? Bewerben und herunterladen
Aishell-1: Ein Open-Source-Mandarin-Sprachkorpus und eine Basis der Spracherkennung | 2017 | ? Bewerben und herunterladen

Emotionale Stimme Conversion

[ 2022 ]

Entspannung des emotionalen Stils und der Lautsprecheridentität für die Ausdrucksstimmungsumwandlung | Interspeech 2022 | Demo
Cross-Speaker-Emotionentransfer basierend auf Prosody-Kompensation für die End-to-End-Sprachsynthese | Interspeech 2022 | Demo
Emotionsintensität und ihre Kontrolle über die Umstellung emotionaler Stimme | IEEE -Transaktionen zum affektiven Computing 2022/07 | ✔️Code | Demo
Textlose Sprachemotionsumwandlung unter Verwendung diskreter und zerlegter Darstellungen | 202202 | Demo

[ 2021 ]

Begrenzte Daten Emotional Voice Conversion Nutzen Sie Text-to-Speech: Zweistufige Sequenz-zu-Sequenz-Training | Interspeech 2021 | ✔️Code | Demo

[ 2020 ]

Konvertieren der Emotionen von jemandem: Auf dem Weg zu sprecherunabhängigen emotionalen Sprachumwandlung | Interspeech 2020 | ✔️Code | Demo
Transformieren von Spektrum und Profis für die Umwandlung emotionaler Sprache mit nichtparallelen Trainingsdaten | Odyssey 2020 | ✔️Code | Demo

Datensatz

Gesehen und unsichtbarer emotionaler Stiltransfer für die Sprachumwandlung mit einem neuen emotionalen Sprachdatensatz | ICASSP 2021 | ? Bewerben & herunterladen | Demo

Singensynthese singen (andere Schlüsselwörter: SVS)

[ 2022 ]

Muskits: Ein End-to-End-Musikverarbeitungs-Toolkit für die Gesangs-Sprachsynthese | Interspeech 2022 | ✔️Code
Singaug: Datenvergrößerung für die Gesangs-Sprachsynthese mit zykluskonsistenter Trainingsstrategie | Interspeech 2022 | ✔️Code
Wesinger: Daten-ausgelöste Gesangssynthese mit Hilfsverlusten | Interspeech 2022 | Demo
Wesinger 2: Voll parallele Gesangssynthese der Gesangsstunde über ein Multi-Sänger-Bedingungsgegner | 2022/08 | Demo
Deep -Lern -Ansätze bei Themen der Singen Informationsverarbeitung | IEEE/ACM TASLP 2022/07
Lernen der Schönheit in Liedern: Neuronales Gesangsprachverschäuber | ACL 2022 | ✔️Code | Demo
Diffsinger: Singensynthese über flacher Diffusionsmechanismus | AAAI 2022 | ✔️Code | Demo

[ 2021 ]

Sinsy: Ein tiefes neuronales netzwerkbasiertes Singensynthesesystem | IEEE/ACM TASLP 2021/08 | ✔️Code

[ 2020 ]

Hifisinger: Auf dem Weg zu hoher Fidelity Neural Sing-Voice-Synthese | 2020/09 | Demo | Inoffizieller Code

Datensatz

M4SINGER: Eine Multi-Stil-, Multi-Sänger- und musikalische Partitur sorgte für Mandarin Singing Corpus | Neurips 2022 | ? Bewerben & herunterladen | Demo
Popcs | AAAI 2022 | ? Bewerben und herunterladen
OpenCPOP: Ein hochwertiger Open-Source-Chinese-beliebtes Song Corpus für die Gesangs-Sprachsynthese | Interspeech 2022 | ? Bewerben und herunterladen

Hochwertige Sprachsynthese (andere Schlüsselwörter: Text-zu-Sprache, TTS)

[ 2022 ]

Prodiff: Progressives schnelles Diffusionsmodell für hochwertige Text-zu-Sprache | ACM MM 2022 | ✔️Code | Demo
BDDM: Bilaterale Denoising-Diffusionsmodelle für schnelle und qualitativ hochwertige Sprachsynthese | ICLR 2022 | ✔️Code | Demo
Fastdiff: Ein schnelles bedingtes Diffusionsmodell für eine hochwertige Sprachsynthese | IJCAI 2022 | ✔️Code | Demo

Vocoder

[ 2022 ]

DDSP-basierte Gesangsvokoder: Ein neuer subtraktiver Synthesizer und eine umfassende Bewertung | Ismir 2022 | ✔️Code | Demo
Fastdiff: Ein schnelles bedingtes Diffusionsmodell für eine hochwertige Sprachsynthese | IJCAI 2022 | ✔️Code | Demo
BINAURALABEGRADGE: Ein zweistufiges konditionales Diffusionsprobabilistikmodell für die binaurale Audio-Synthese | 2022/05 | Demo

[ 2021 ]

Multi-Sänger: Schneller Multi-Sänger-Gesangs-Sprachvokoder mit einem großen Corpus | ACM MM 2021 | ? Bewerben & herunterladen | ✔️Code | Demo
Wanderebad 2: Iterative Verfeinerung für die Text-zu-Sprache-Synthese | Interspeech 2021 | Demo
Diffwave: Ein vielseitiges Diffusionsmodell für die Audio -Synthese | ICLR 2021 | ✔️Code | Demo
Wanderadrad: Schätzung von Gradienten für die Wellenformgenerierung | ICLR 2021 | Demo

[ 2020 ]

Hifi-Gan: Generative kontroverse Netzwerke für effiziente und High-Fidelity-Sprachsynthese | Neurips 2020 | ✔️Code | Demo
Multi-Band-Melgan: schnellere Wellenformgenerierung für hochwertige Text-zu-Sprache | Interspeech 2020 | Demo
Paralleler Wellengegan: Ein Modell der schnellen Wellenformgenerierung basierend auf generativen widersprüchlichen Netzwerken mit Multi-Auflösungsspektrogram | ICASSP 2020 | Demo | Inoffizieller Code

[ 2019 ]

Melgan: Generative widersprüchliche Netzwerke für die bedingte Wellenform -Synthese | Neurips 2019 | ✔️Code | Demo
Um robuste universelle neuronale Vokodierung zu erreichen | Interspeech 2019 | ✔️Code | Demo | Inoffizieller Code

Musiksynthese/Musiksynthese

[ 2022 ]

Multi-Instrument-Musiksynthese mit Spektrogrammdiffusion | Ismir 2022 | ✔️Code | Demo
Musika! Schnelle unendliche Wellenform Musikgenerierung | Ismir 2022 | ✔️Code | Demo

Automatische Musiktranskription

[ 2022 ]

MT3: Multi-Task-Multitrack-Musik-Transkription | ICLR 2022 | ✔️Code |

[ 2021 ]

Omnizart: Eine allgemeine Toolbox für automatische Musiktranskription | Das offene Journal 2021/12 | ✔️Code | Demo

Selbstbetreuter/unbeaufsichtigtes ASR

[ 2022 ]

Unispeech-sa: Universal Sprachrepräsentation Lernen mit Sprecher bewusst vor der Ausbildung | ICASSP 2022 | ✔️Code | ✔️Code
Leistungseffizienz-Kompromisse bei unbeaufsichtigten Voraussetzungen für die Spracherkennung | ICASSP 2022 | ✔️Code | ✔️Code
Pseudomarkierung für massiv mehrsprachige Spracherkennung | ICASSP 2022 | ✔️Code | ✔️Code
WAVLM: groß angelegte selbstüberwachende Vorausbildung für die Sprachverarbeitung mit vollem Stapel | IEEE JSTSP 2022/06 | ✔️Code | ✔️Code

[ 2021 ]

XLS-R: Selbsterdurchschnittlich lingaler Sprachrepräsentation Lernen im Maßstab | 2021/12 | ✔️Code | ✔️Code
Einfache und effektive Zero-Shot-Kreuzungserkennung | 2021/09 | ✔️Code | ✔️Code
TERA: SELTSCHAFTE VERRAGE DER SPRECHUNG VON SPRECHUNG VON TRANSFORMUSER COMERS FÜR SPRECHEN | IEEE/ACM TASLP 2021/08 | ✔️Code
Unispeech: Unified Speech Repräsentation Lernen mit beschrifteten und nicht markierten Daten | ICML 2021 | ✔️Code | ✔️Code | ✔️Code
Hubert: Selbsterdurchschnittliche Sprachrepräsentation Lernen durch maskierte Vorhersage versteckter Einheiten | IEEE/ACM TASLP 2021/06 | ✔️Code | ✔️Code

[ 2020 ]

WAV2VEC 2.0: Ein Rahmen für das selbstbewertete Erlernen von Sprachdarstellungen | Neurips 2020 | ✔️Code | ✔️Code
VQ-WAV2VEC: Selbstüberprüftes Lernen diskreter Sprachrepräsentationen | ICLR 2020 | ✔️Code | ✔️Code
Mockingjay: unbeaufsichtigte Sprachrepräsentation Lernen mit tiefen bidirektionalen Transformator -Encodern | ICASSP 2020 | ✔️Code
Unbeaufsichtigtes Kreuzungs-Repräsentation Lernen für Spracherkennung | 2020/06 | ✔️Code | ✔️Code
FairSeq S2T: Fast Speech-to-Texting-Modellierung mit FairSeq | AACL 2020 | ✔️Code | ✔️Code

[ 2019 ]

Repräsentationslernen mit kontrastiven Vorhersagecodierung | 2019/07 | ✔️Code

Automatische MOS -Vorhersage

[ 2022 ]

Die Voicemos Challenge 2022 | Interspeech 2022

[ 2021 ]

Verwendung von selbstbewerteten Darstellungen für die MOS-Vorhersage | Interspeech 2021 | ✔️Code

Sprachdatenvergrößerung

[ 2021 ]

Daten erweitern das kontrastive Lernen von Sprachdarstellungen im Zeitbereich | SLT 2021 | ✔️Code

Sprachinsertion

[ 2022 ]

Retrievertts: Modellierung zersetzte Faktoren für textbasierte Spracheinfügungen | Interspeech 2022 | Demo

Sprachverbesserung

[ 2022 ]

Bedingte Diffusion probabilistisches Modell zur Sprachverstärkung | ICASSP 2022 | ✔️Code

[ 2021 ]

Eine Studie zur Sprachverbesserung basierend auf Diffusion probabilistischem Modell | Apsipa 2021

Prosody-Asse

[ 2022 ]

Textfreie prosody-bewusstes Generative Spoken Language Modeling | ACL 2022 | ✔️Code | Demo

[ 2021 ]

Sprachbert -Einbettung zur Verbesserung der Prosodie in neuronalen TTs | ICASSP 2021 | ✔️Code | Demo

Gegnerschaftsangriff

[ 2021 ]

Verteidigung Ihrer Stimme: Konversser Angriff auf die Sprachumwandlung | SLT 2021 | ✔️Code | Demo

Toolkits

ASR -Toolkits

S3prl Toolkit
Wenet

TTS -Toolkits

Natspeech: Ein nicht autoregressives Text-zu-Sprach-Framework
Coqui.ai tts
ESPNET: End-to-End-Sprachverarbeitungs-Toolkit

Audio-/Musikverarbeitungs -Toolkits

Muskit: Open-Source-Musikverarbeitungs-Toolkits
Nnaudio: Audioverarbeitung mithilfe von Pytorch 1D -Faltungsnetzwerk

Datenannotation/ Ausrichtung/ Toolkits

Praat: Phonetik nach Computer machen
Parselmouth - Praat in Python, The Pythonic Way
Montreal erzwang Aligner

Andere Frameworks und Toolkits

? Diffusoren
Fairseq: Facebook-AI-Forschungssequenz-zu-Sequenz-Toolkit

Wettbewerbe

Voice Conversion Challenge 2020 | ? Bewerben & herunterladen | ✔️Code
Die Blizzard Challenge

Referenzen

Fantastische Spracherkennung Sprachsynthesepapiere
Fantastische Sprach -Conversion -Papiere Projekte
TTS -Papiere
? TTS -Papiere
Sprachsynthesepapier
Fantastische Diffusionsmodelle
Papiere mit Code: Sprachumwandlung
Papiere mit Code: Gesangssprachkonvertierung
Papiere mit Code: Sprachsynthese singen
Großartige Open Source: Voice Conversion
Eine Liste der Demo -Websites für die automatische Forschung zur Musikgenerierung
ICASSP 2021 Papierliste-VC

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ AI-Quellcode
Aktualisierungszeit 2025-09-15
Größe 8.76KB
Kommt von Github

Ähnliche Anwendungen

awesome citygml

2024-11-13
awesome generative ai guide

2024-11-05
GLM 4 Voice

2024-11-02
Retrieval based Voice Conversion WebUI

2024-11-01
Die tolle Anzeige

2022-08-08
GOOGLE VOICE unbegrenzte SMS-Schnittstelle

2009-11-07