Awesome Singing Voice Synthesis and Singing Voice Conversion Download - Awesome Singing Voice Synthesis and Singing Voice Conversion Code Source Téléchargement

Awesome Singing Voice Synthesis and Singing Voice Conversion

Code Source AI

1.0.0

Télécharger

Impressionnante synthèse de la voix de chant et conversion de voix chantante

Une liste d'articles et de projets sur la synthèse de la parole de pointe, le texte-parole (TTS) , la synthèse vocale chanteuse (SVS) , la conversion vocale (VC) , la conversion vocale chanteuse (SVC) et les œuvres intéressantes connexes (telles que la synthèse musicale , la transcription musicale automatique , la prédiction automatique MOS , ASR basé sur SSL , ... etc.).

Bienvenue dans PR ou contactez-moi par e-mail ([email protected]) pour mettre à jour les papiers et les travaux.

Liste de papier

Revues

IEEE / ACM TASLP, IEEE JSTSP, JSLHR, IEEE TPAMI

Conférences

Neuraips, ICLR, ICML, IJAI, AAAI, ACL, NAACL, EMNLP, ISMIR, ACM MM, ICASSP, IntelleSpeech, ICME

Ateliers

ASRU, SLT

Conversion vocale chantante (autres mots clés: SVC, transfert de style de chant)

[ 2022 ]

Learn2Sing 2.0: SVS de la diffusion et de l'information mutuelle SVS en apprenant du professeur de chant | Intere-Speech 2022 | ✔️ Code | Démo
Un cadre de représentation de haut-parleur hiérarchique pour la conversion vocale de chant unique | Intere-Speech 2022 | Démo
Amélioration de la génération de la génération d'onde adversaire basée sur la génération de chants avec des signaux harmoniques | ICASSP 2022 | Démo

[ 2021 ]

Diffsvc: un modèle probabiliste de diffusion pour chanter la conversion vocale | ASRU 2021 | Démo
Décomposition de voix de chant contrôlable et interprétable via ASSEMP-VC | Atelier des Neirips 2021 | Démo
Vers la conversion vocale de chant à haute fidélité avec référence acoustique et codage prédictif contrastif | 2021/10 | Démo
FastSVC: Conversion vocale de chant transversale rapide avec une modulation linéaire en fonction des fonctionnalités | ICME 2021 | Démo
Conversion de voix chantante à base de wavenet non supervisée en utilisant l'augmentation de la hauteur et l'approche biphasée | 2021/07 | ✔️ Code | Démo

[ 2020 ]

Conversion vocale de chant zéro | Ismir 2020 | Démo
Phonétique PostériaGrams basé sur la conversion de la voix chantante de plusieurs à plusieurs via une formation contradictoire | 2020/12 | Démo | Code non officiel
Durian-SC: Durée Système de conversion vocale basé sur le réseau d'attention éclairé | IntereSpeech 2020 | Démo
Conversion de la voix de chant croisé sans surveillance | IntereSpeech 2020 | Démo
Pitchnet: Conversion vocale de chant non supervisée avec réseau adversaire Pitch | ICASSP 2020 | Démo
VAW-GAN pour chanter la conversion vocale avec des données de formation non parallèles | APSIPA 2020 | ✔️ Code | Démo

Jeu de dates

M4Singer: Une partition multi-style, multi-monncule et musicale a fourni un corpus de chant mandarin | Neirips 2022 | ? Appliquer et télécharger | Démo
NUS-48E chanté et parlées paroles corpus | ? Appliquer et télécharger
NHSS: une base de données parallèle de discours et de chant | ? Appliquer et télécharger

Classification des techniques de conversion / chant de technique de chant

[ 2022 ]

Le CNN et le déséquilibre déformables ont un apprentissage pour la classification des techniques de chant | Intere-Speech 2022

[ 2021 ]

Enquêter sur les représentations de fréquence temporelle pour l'extraction des fonctionnalités audio dans la classification des techniques de chant | Apsipa 2021
Conversion de techniques de chant zéro | CMMR 2021

Jeu de dates

Vocalset: un ensemble de données vocales de chant | Ismir 2018 | ? Appliquer et télécharger

Conversion vocale (autres mots clés: VC, clonage vocal, transfert de style vocal)

[ 2022 ]

Apprendre la représentation de la parole indépendante du bruit pour la conversion vocale de haute qualité pour les haut-parleurs cibles bruyants | Intere-Speech 2022 | Démo
Glow-Wavegan 2: Synthèse de texte à dispection zéro de haute qualité et conversion vocale de toute autre chose | Intere-Speech 2022 | Démo
Conversion vocale basée sur la diffusion avec un schéma d'échantillonnage de vraisemblance maximum rapide | ICLR 2022 | ✔️ Code | Démo
YOTTTS: Vers des TT multi-partenaires zéro et une conversion vocale zéro-shot pour tout le monde | ICML 2022 | ✔️ Code | Démo | Démo | Bloguer
Une étude comparative de la conversion vocale basée sur la représentation de la parole auto-supervisée | IEEE JSTSP 2022/07
S3PRL-VC: Cadre de conversion vocale open-source avec représentations de la parole auto-supervisées | ICASSP 2022 | ✔️ Code
Une comparaison des unités de parole discrètes et douces pour une meilleure conversion vocale | ICASSP 2022 | ✔️ Code | Démo
Assemblée VC: Conversion de la voix réaliste en assemblant les techniques de synthèse de la parole modernes | ICASSP 2022 | ✔️ Code | Démo
NVC-NET: Conversion vocale adversaire de bout en bout | ICASSP 2022 | ✔️ Code | Démo
Représentation de la parole variationnelle démunie robuste apprentissage pour la conversion vocale de zéro | ICASSP 2022 | Démo
Formation des modèles de conversion vocale robustes avec des fonctionnalités auto-supervisées | ICASSP 2022 | Démo
Vers la dégradation de la conversion vocale de la robuste | ICASSP 2022
DGC-Vector: Un nouvel haut-parleur incorporant pour la conversion vocale de zéro | ICASSP 2022 | Démo
Transfert de style vocal zéro de bout en bout avec des convolutions à variation de l'emplacement | 2022/05 | Démo

[ 2021 ]

Sur la modélisation de la prosodie pour la conversion vocale basée sur ASR + TTS | ASRU 2021 | Démo
Analyse neuronale et synthèse: reconstruire la parole à partir de représentations auto-supervisées | Neirips 2021 | Démo | Code non officiel
MediumVC: Conversion vocale n'importe quoi à l'aide de discours synthétiques de parole spécifique comme caractéristiques d'intermédiaire | 2021/10 | ✔️ Code | Démo
Starganv2-VC: Un cadre diversifié, non supervisé et non parallèle pour la conversion vocale à consonance naturelle | IntereSpeech 2021 Meilleur papier | ✔️ Code | Démo
S2VC: Un cadre pour la conversion vocale n'importe quelle autre avec des représentations pré-trainées auto-supervisées | Intere-Speech 2021 | ✔️ Code | Démo
Much-to-plusieurs Débardeur basée sur la conversion vocale Démassement à l'aide de AutoEncoder variationnel | Intere-Speech 2021 | ✔️ Code | Démo
Resynthèse de la parole à partir de représentations auto-supervisées discrètes démodées | Intere-Speech 2021 | Démo
Amélioration du transfert de style vocal zéro via l'apprentissage de la représentation démêlée | ICLR 2021
Transfert de style rythmique global sans transcriptions de texte | ICML 2021 | ✔️ Code
Encore une fois-VC: une conversion vocale à un coup utilisant le guidage d'activation et la normalisation des instances adaptatives | ICASSP 2021 | ✔️ Code | Démo
Conversion vocale tout-à-contre avec modélisation de séquence à séquence liée à l'emplacement | IEEE / ACM TASLP 2021/05 | ✔️ Code | Démo

[ 2020 ]

Un aperçu de la conversion vocale et de ses défis: de la modélisation statistique à l'apprentissage en profondeur | IEEE / ACM TASLP 2020/11
Décomposition de la parole non supervisée via un goulot d'étranglement à triple information | ICML 2020 | ✔️ Code

[ 2019 ]

Conversion vocale à un coup en séparant les représentations du haut-parleur et du contenu avec normalisation des instances | IntereSpeech 2019 | ✔️ Code
AUTOVC: transfert de style vocal zéro avec uniquement la perte d'autoencoder | ICML 2019 | ✔️ Code | Démo

Jeu de dates

CORPUS CSTR VCTK: Corpus multi-haut-parleurs anglais pour la boîte à outils de clonage vocale CSTR | 2019 | ? Appliquer et télécharger
Aishell-3: Un corpus Mandarin TTS multi-haut-parleurs et les lignes de base | 2020 | ? Appliquer et télécharger | Démo
Aishell-2: Transformer la recherche sur le mandarin ASR en échelle industrielle | 2018 | ? Appliquer et télécharger
Aishell-1: un corpus de discours de mandarin open source et une base de réception de la parole | 2017 | ? Appliquer et télécharger

Conversion de la voix émotionnelle

[ 2022 ]

Désoccasion du style émotionnel et de l'identité des haut-parleurs pour la conversion de la voix expressive | Intere-Speech 2022 | Démo
Transfert d'émotion entre les ordres en vertu de la rémunération de la prosodie pour la synthèse de la parole de bout en bout | Intere-Speech 2022 | Démo
Intensité des émotions et son contrôle de la conversion de la voix émotionnelle | Transactions IEEE sur l'informatique affective 2022/07 | ✔️ Code | Démo
Conversion d'émotion de la parole sans texte utilisant des représentations discrètes et décomposées | 202202 | Démo

[ 2021 ]

Données limitées Conversion de la voix émotionnelle Tirant l'extraction de texte à dissolution: formation de séquence à la séquence en deux étapes | Intere-Speech 2021 | ✔️ Code | Démo

[ 2020 ]

Convertir l'émotion de quiconque: vers la conversion de la voix émotionnelle indépendante du locuteur | IntereSpeech 2020 | ✔️ Code | Démo
Transformer le spectre et la prosodie pour la conversion de la voix émotionnelle avec des données de formation non parallèles | Odyssey 2020 | ✔️ Code | Démo

Jeu de dates

Transfert de style émotionnel vu et invisible pour la conversion vocale avec un nouvel ensemble de données de discours émotionnel | ICASSP 2021 | ? Appliquer et télécharger | Démo

Synthèse vocale chantante (autres mots clés: SVS)

[ 2022 ]

Muskits: une boîte à outils de traitement musicale de bout en bout pour chanter la synthèse vocale | Intere-Speech 2022 | ✔️ Code
SINGAUG: Augmentation des données pour la synthèse vocale chanteuse avec stratégie de formation consciente du cycle | Intere-Speech 2022 | ✔️ Code
Wesinger: Synthèse vocale chantante aux données avec pertes auxiliaires | Intere-Speech 2022 | Démo
Wesinger 2: Synthèse vocale chantante entièrement parallèle via une formation contradictoire conditionnelle multi-monnaie | 2022/08 | Démo
Approches d'apprentissage en profondeur dans des sujets de traitement de l'information chantant | IEEE / ACM TASLP 2022/07
Apprendre la beauté dans les chansons: Neural Singing Voice Embellier | ACL 2022 | ✔️ Code | Démo
Diffsinger: Singing vocal Synthesis via un mécanisme de diffusion superficiel | AAAI 2022 | ✔️ Code | Démo

[ 2021 ]

SINSY: un système de synthèse vocale chantant de réseau neuronal profond | IEEE / ACM TASLP 2021/08 | ✔️ Code

[ 2020 ]

Hifisinger: Vers la synthèse vocale du chant neural à haute fidélité | 2020/09 | Démo | Code non officiel

Jeu de dates

M4Singer: Une partition multi-style, multi-monncule et musicale a fourni un corpus de chant mandarin | Neirips 2022 | ? Appliquer et télécharger | Démo
POPCS | AAAI 2022 | ? Appliquer et télécharger
OpenCPOP: Un corpus de chanson populaire chinois open source de haute qualité pour chanter la synthèse vocale | Intere-Speech 2022 | ? Appliquer et télécharger

Synthèse de la parole de haute qualité (autres mots clés: texte-vocation, TTS)

[ 2022 ]

Prodiff: modèle de diffusion rapide progressive pour le texte à la dissection de haute qualité | ACM MM 2022 | ✔️ Code | Démo
BDDM: Modèles de diffusion bilatérale pour la synthèse de la parole rapide et de haute qualité | ICLR 2022 | ✔️ Code | Démo
FastDiff: un modèle de diffusion conditionnel rapide pour la synthèse de la parole de haute qualité | Ijcai 2022 | ✔️ Code | Démo

Vocodeur

[ 2022 ]

Des vocodeurs de chant basés sur le DDSP: un nouveau synthétiseur basé sur soustraction et une évaluation complète | Ismir 2022 | ✔️ Code | Démo
FastDiff: un modèle de diffusion conditionnel rapide pour la synthèse de la parole de haute qualité | Ijcai 2022 | ✔️ Code | Démo
Binauralgrad: Un modèle probabiliste conditionnel à deux étapes de diffusion pour la synthèse audio binaurale | 2022/05 | Démo

[ 2021 ]

Multi-chanteur: Vocage de chant à chanteur multiple rapide avec un corpus à grande échelle | ACM MM 2021 | ? Appliquer et télécharger | ✔️ Code | Démo
Wavegrad 2: raffinement itératif pour la synthèse du texte-dispection | Intere-Speech 2021 | Démo
Diffwave: un modèle de diffusion polyvalent pour la synthèse audio | ICLR 2021 | ✔️ Code | Démo
Grad Wave: Estimation des gradients pour la génération de forme d'onde | ICLR 2021 | Démo

[ 2020 ]

HIFI-GAN: Réseaux adversaires génératifs pour une synthèse de parole efficace et haute fidélité | Neirips 2020 | ✔️ Code | Démo
Multi-Band MELGAN: Génération de forme d'onde plus rapide pour le texte-to-vocation de haute qualité | IntereSpeech 2020 | Démo
Parallel Wavegan: un modèle de génération de format d'onde rapide basé sur des réseaux adversaires génératifs avec spectrogramme multi-résolution | ICASSP 2020 | Démo | Code non officiel

[ 2019 ]

MELGAN: réseaux adversaires génératifs pour la synthèse de la forme d'onde conditionnelle | Neirips 2019 | ✔️ Code | Démo
Vers la réalisation de vocodage neuronal universel robuste | IntereSpeech 2019 | ✔️ Code | Démo | Code non officiel

Synthèse musicale / synthèse musicale

[ 2022 ]

Synthèse musicale multi-instrument avec diffusion de spectrogramme | Ismir 2022 | ✔️ Code | Démo
Musika! Génération de musique de forme d'onde infinie rapide | Ismir 2022 | ✔️ Code | Démo

Transcription musicale automatique

[ 2022 ]

MT3: Transcription musicale multi-tâches Multitrack | ICLR 2022 | ✔️ Code |

[ 2021 ]

Omnizart: une boîte à outils générale pour la transcription musicale automatique | The Open Journal 2021/12 | ✔️ Code | Démo

ASR auto-supervisé / non supervisé

[ 2022 ]

UNISEECPH-SAT: Représentation de la parole universelle Apprentissage avec le haut-parleur Ayant la formation pré-formation | ICASSP 2022 | ✔️ Code | ✔️ Code
Compromis d'efficacité des performances en pré-formation non supervisée pour la reconnaissance de la parole | ICASSP 2022 | ✔️ Code | ✔️ Code
Pseudo-étiquetage pour la reconnaissance de la parole massivement multilingue | ICASSP 2022 | ✔️ Code | ✔️ Code
WAVLM: pré-formation auto-supervisée à grande échelle pour le traitement de la parole complète de la pile | IEEE JSTSP 2022/06 | ✔️ Code | ✔️ Code

[ 2021 ]

XLS-R: Représentation de la parole croisée auto-supervisée Apprentissage à l'échelle | 2021/12 | ✔️ Code | ✔️ Code
Reconnaissance de phonèmes inter-lingues à tirs zéro simple et efficace | 2021/09 | ✔️ Code | ✔️ Code
TERA: Apprentissage auto-supervisé de la représentation du codeur de transformateur pour la parole | IEEE / ACM TASLP 2021/08 | ✔️ Code
UNISEECK: Représentation de la parole unifiée Apprentissage avec des données étiquetées et non marquées | ICML 2021 | ✔️ Code | ✔️ Code | ✔️ Code
Hubert: Représentation de la parole auto-supervisée par la prédiction masquée des unités cachées | IEEE / ACM TASLP 2021/06 | ✔️ Code | ✔️ Code

[ 2020 ]

WAV2VEC 2.0: Un cadre pour l'apprentissage auto-supervisé des représentations de la parole | Neirips 2020 | ✔️ Code | ✔️ Code
VQ-WAV2VEC: Apprentissage auto-supervisé des représentations de la parole discrètes | ICLR 2020 | ✔️ Code | ✔️ Code
Mockingjay: Représentation de la parole non supervisée avec des encodeurs de transformateurs bidirectionnels profonds | ICASSP 2020 | ✔️ Code
Représentation inter-linguale non supervisée Apprentissage pour la reconnaissance de la parole | 2020/06 | ✔️ Code | ✔️ Code
FAIRSEQ S2T: Modélisation rapide de la parole avec Fairseq | AACL 2020 | ✔️ Code | ✔️ Code

[ 2019 ]

Représentation Apprentissage avec codage prédictif contrasté | 2019/07 | ✔️ Code

Prédiction MOS automatique

[ 2022 ]

The Voicemos Challenge 2022 | Intere-Speech 2022

[ 2021 ]

Utilisation de représentations auto-supervisées pour la prédiction MOS | Intere-Speech 2021 | ✔️ Code

Augmentation des données vocales

[ 2021 ]

Données augmentant l'apprentissage contrastif des représentations de la parole dans le domaine temporel | SLT 2021 | ✔️ Code

Insertion de la parole

[ 2022 ]

Retrievertts: Modélisation des facteurs décomposés pour l'insertion de la parole basée sur le texte | Intere-Speech 2022 | Démo

Amélioration de la parole

[ 2022 ]

Modèle probabiliste conditionnel de diffusion pour l'amélioration de la parole | ICASSP 2022 | ✔️ Code

[ 2021 ]

Une étude sur l'amélioration de la parole basée sur le modèle probabiliste de diffusion | Apsipa 2021

Aéré à la prosodie

[ 2022 ]

Modélisation génératrice de la langue parlée sans texte sans texte | ACL 2022 | ✔️ Code | Démo

[ 2021 ]

Discours Bert intégrant pour l'amélioration de la prosodie dans les TTs neuronaux | ICASSP 2021 | ✔️ Code | Démo

Attaque contradictoire

[ 2021 ]

Défendre votre voix: attaque contradictoire sur la conversion vocale | SLT 2021 | ✔️ Code | Démo

Kits d'outils

Kites d'outils ASR

Boîte à outils S3PRL
Faire un coup de pouce

Boîtiers d'outils TTS

NATSPEECH: Un cadre de texte vocale non autorégressif
Coqui.ai tts
ESPNET: boîte à outils de traitement de la parole de bout en bout

Souches d'outils de traitement audio / musicale

Muskit: boîte à outils de traitement de la musique open source
Nnaudio: traitement audio en utilisant le réseau de convolution Pytorch 1D

Annotation / alignement de données / boîtes à outils

Praat: faire la phonétique par ordinateur
Parselmouth - Praat à Python, la manière pythonique
Montréal Forced Aligner

Autres cadres et kits d'outils

? Diffuseurs
Fairseq: Facebook AI Research Sequence to-toolkit

Compétitions

Défi de la conversion vocale 2020 | ? Appliquer et télécharger | ✔️ Code
Le défi Blizzard

Références

Awesome Recognition Recognition Disporing Synthesis Papers
Projets de papiers de conversion de voix impressionnants
Papiers TTS
? Papiers TTS
Document de synthèse de la parole
Modèles de diffusion impressionnants
Papiers avec code: conversion vocale
Papiers avec code: chant de conversion vocale
Documents avec code: chant de synthèse vocale
Génial open source: conversion vocale
Une liste de sites Web de démonstration pour la recherche automatique de la génération de musique
ICASSP 2021 Paper List-VC

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-15
taille 8.76KB
Provenant de Github

Applications connexes

awesome citygml

2024-11-13
awesome generative ai guide

2024-11-05
GLM 4 Voice

2024-11-02
Retrieval based Voice Conversion WebUI

2024-11-01
La superbe publicité

2022-08-08
Interface SMS illimitée GOOGLE VOICE

2009-11-07

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout