Statut : Archive (le code est fourni en tant que mises à jour attendues)
Nous essayons de cloner des voix pour des conférenciers indépendants. Cela signifie que nous devons enchaîner l'identité de l'orateur plutôt que le contenu qu'ils parlent. Nous essayons de le faire en créant un haut-parleur intégrant un espace pour différents haut-parleurs.
Les intérêts des haut-parleurs essaient de représenter l'identité du haut-parleur (divers aspects de la voix comme la hauteur, l'accent, etc. de l'orateur), vous pouvez considérer cela comme l'empreinte digitale de la voix de l'orateur.
Nous faisons actuellement référence au document suivant pour notre implémentation: -
L'architecture du modèle de génération en génération et d'encodeur de haut-parleurs multiples a été construite.
Le modèle génératif multi-haut-parleurs a été formé pour l'adaptation des haut-parleurs pour 84 locuteurs utilisant VCTK-Dataset a été achevé sur le GPU NVIDIA - V100 pour les époques 190000.
L'ensemble de données VCTK a été divisé pour la formation et les tests: 84 enceintes sont utilisées pour former le modèle multi-ordres, 8 haut-parleurs pour la validation et 16 haut-parleurs pour le clonage.
Ce qui suit formera le modèle sur les 84 premiers haut-parleurs de l'ensemble de données.
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --checkpoint-dir=<path> --checkpoint-interval=<int>
Cela peut prendre jusqu'à 20 heures à l'aide d'un GPU.
Pour adapter le modèle à un orateur particulier après la formation initiale
python speaker_adaptation.py --data-root=<path_of_vctk_dataset> --restore-parts=<path_of_checkpoint> --checkpoint-dir=<path> --checkpoint-interval=<int>
Cela prendra en moyenne 10 à 20 minutes.
Jusqu'à présent, certaines des voix coned que nous avons obtenues en utilisant le lien d'adaptation des haut-parleurs
La mise en œuvre du modèle génératif multi-ordres a été inspirée de https://github.com/r9y9/deepvoice3_pytorch
Clonage de voix neuronale avec quelques échantillons
Si vous trouvez le code dans le référentiel utile, veuillez le citer en utilisant:
@misc{chitlangia2021voicecloning,
author = {Chitlangia, Sharad and Rastogi, Mehul and Ganguly, Rijul},
title = {An Open Source Implementation of Neural Voice Cloning With Few Samples},
year = {2021},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {Available at url{https://github.com/SforAiDl/Neural-Voice-Cloning-With-Few-Samples/} or url{https://github.com/Sharad24/Neural-Voice-Cloning-With-Few-Samples/}},
}