Mise en œuvre officielle de Learn2Sing 2.0. Pour tous les détails, consultez notre article qui est accepté par IntereSpeech 2022 via ce lien.
Auteurs : Heyang Xue, Xinsheng Wang, Yongmao Zhang, Lei Xie, Pengcheng Zhu, Mengxiao BI.
Page de démonstration : lien.
Construire un corpus de chant de haute qualité pour une personne qui n'est pas bon à chanter est non trivial, ce qui rend difficile la création d'un synthétiseur de voix chantant pour cette personne. Learn2Sing est dédié à synthétiser la voix chantante d'un orateur sans ses données de chant en apprenant des données enregistrées par d'autres, c'est-à-dire le professeur de chant. Inspiré par le fait que Pitch est le facteur de style clé pour distinguer le chant de la voix parlante, la proposition Learn2Sing 2.0 génère d'abord la fonction acoustique préliminaire avec une valeur de hauteur moyenne au niveau du téléphone, ce qui permet la formation de ce processus pour différents styles, c'est-à-dire parlant ou chantant, partagent les mêmes conditions, sauf pour les informations de haut-parleurs. Ensuite, conditionné sur le style spécifique, un décodeur de diffusion, qui est accéléré par un algorithme d'échantillonnage rapide pendant le stade d'inférence, est adopté pour restaurer progressivement la caractéristique acoustique finale. Pendant la formation, pour éviter la confusion d'informations de l'incorporation du haut-parleur et l'intégration du style, des informations mutuelles sont utilisées pour restreindre l'apprentissage de l'intégration et de l'incorporation du style. Des expériences montrent que l'approche proposée est capable de synthétiser une voix de chant de haute qualité pour le haut-parleur cible sans chanter de données avec 10 étapes de décodage.
Remplacez l'ensemble de téléphones et le tangage dans le texte / symbols.py par votre propre ensemble
Fournissez le chemin d'accès aux données de config.json, le dossier TestData contient des exemples de fichiers pour démontrer le format
Entraînement
bash run.sh
Inférence
bash syn.sh outputs target_speaker_id 0 decoding_steps cuda True