Neural Voice Cloning With Few Samples téléchargement - Neural Voice Cloning With Few Samples téléchargement du code source

Neural Voice Cloning With Few Samples

Code Source AI

1.0.0

Télécharger

Statut : Archive (le code est fourni en tant que mises à jour attendues)

To-cloning neural-with-few-échantillons

Nous essayons de cloner des voix pour des conférenciers indépendants. Cela signifie que nous devons enchaîner l'identité de l'orateur plutôt que le contenu qu'ils parlent. Nous essayons de le faire en créant un haut-parleur intégrant un espace pour différents haut-parleurs.

Les intérêts des haut-parleurs essaient de représenter l'identité du haut-parleur (divers aspects de la voix comme la hauteur, l'accent, etc. de l'orateur), vous pouvez considérer cela comme l'empreinte digitale de la voix de l'orateur.

Nous faisons actuellement référence au document suivant pour notre implémentation: -

"Clonage de voix neuronale avec quelques échantillons" par baidu

Statut

L'architecture du modèle de génération en génération et d'encodeur de haut-parleurs multiples a été construite.

Le modèle génératif multi-haut-parleurs a été formé pour l'adaptation des haut-parleurs pour 84 locuteurs utilisant VCTK-Dataset a été achevé sur le GPU NVIDIA - V100 pour les époques 190000.

Adapatation du locuteur

L'ensemble de données VCTK a été divisé pour la formation et les tests: 84 enceintes sont utilisées pour former le modèle multi-ordres, 8 haut-parleurs pour la validation et 16 haut-parleurs pour le clonage.

Formation pour l'adapatation des conférenciers

Ce qui suit formera le modèle sur les 84 premiers haut-parleurs de l'ensemble de données.

 python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>

Cela peut prendre jusqu'à 20 heures à l'aide d'un GPU.

Pour adapter le modèle à un orateur particulier après la formation initiale

 python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>

Cela prendra en moyenne 10 à 20 minutes.

Quelques voix clonées

Jusqu'à présent, certaines des voix coned que nous avons obtenues en utilisant le lien d'adaptation des haut-parleurs

Remerciements

La mise en œuvre du modèle génératif multi-ordres a été inspirée de https://github.com/r9y9/deepvoice3_pytorch
Clonage de voix neuronale avec quelques échantillons

Citer

Si vous trouvez le code dans le référentiel utile, veuillez le citer en utilisant:

 @misc{chitlangia2021voicecloning,
  author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
  title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-20
taille 42.14MB
Provenant de Github

Applications connexes

azure search python samples

2024-11-05
GLM 4 Voice

2024-11-02
Retrieval based Voice Conversion WebUI

2024-11-01
piégé avec Jester

2024-02-23
Version Android du Cloud neuronal

2022-11-24
Nous sommes quelques heureux

2022-09-05

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout