Télécharger Learn2Sing2.0 - Learn2Sing2.0 Téléchargement du code source

Learn2Sing2.0

Code Source AI

1.0.0

Télécharger

Learn2Sing 2.0: SVS de la diffusion et de l'information mutuelle SVS Target en apprenant de Singing Teacher

Mise en œuvre officielle de Learn2Sing 2.0. Pour tous les détails, consultez notre article qui est accepté par IntereSpeech 2022 via ce lien.

Auteurs : Heyang Xue, Xinsheng Wang, Yongmao Zhang, Lei Xie, Pengcheng Zhu, Mengxiao BI.

Abstrait

Page de démonstration : lien.

Construire un corpus de chant de haute qualité pour une personne qui n'est pas bon à chanter est non trivial, ce qui rend difficile la création d'un synthétiseur de voix chantant pour cette personne. Learn2Sing est dédié à synthétiser la voix chantante d'un orateur sans ses données de chant en apprenant des données enregistrées par d'autres, c'est-à-dire le professeur de chant. Inspiré par le fait que Pitch est le facteur de style clé pour distinguer le chant de la voix parlante, la proposition Learn2Sing 2.0 génère d'abord la fonction acoustique préliminaire avec une valeur de hauteur moyenne au niveau du téléphone, ce qui permet la formation de ce processus pour différents styles, c'est-à-dire parlant ou chantant, partagent les mêmes conditions, sauf pour les informations de haut-parleurs. Ensuite, conditionné sur le style spécifique, un décodeur de diffusion, qui est accéléré par un algorithme d'échantillonnage rapide pendant le stade d'inférence, est adopté pour restaurer progressivement la caractéristique acoustique finale. Pendant la formation, pour éviter la confusion d'informations de l'incorporation du haut-parleur et l'intégration du style, des informations mutuelles sont utilisées pour restreindre l'apprentissage de l'intégration et de l'incorporation du style. Des expériences montrent que l'approche proposée est capable de synthétiser une voix de chant de haute qualité pour le haut-parleur cible sans chanter de données avec 10 étapes de décodage.

Formation et inférence:

Avant de pouvoir utiliser cette implémentation, vous devez modifier ce qui suit:

Remplacez l'ensemble de téléphones et le tangage dans le texte / symbols.py par votre propre ensemble
Fournissez le chemin d'accès aux données de config.json, le dossier TestData contient des exemples de fichiers pour démontrer le format

Entraînement
```
  bash run.sh
```

Inférence

  bash syn.sh outputs target_speaker_id 0 decoding_steps cuda True

Remerciements:

Le décodeur de diffusion est adapté des gradtts;
L'estimation des informations mutuelles est modifiée à partir de VQMIVC;
Vadim Popov a effectué une revue de code de la pièce d'algorithme d'échantillonnage rapide.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-21
taille 38.73MB
Provenant de Github

Applications connexes

Mélangeur4.0

2024-02-21
Rufus4.0

2024-02-21
jmcomicron.mic2.0

2024-01-09
Drame corrompu TV3.0

2023-03-27
Roi des combattants WingEx1.0

2023-02-20
Indy9.0.Routine

2009-05-29

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout