Application de clonage vocale
Une application Python / Pytorch pour synthétiser facilement les voix humaines

Documentation
Serveur de discorde
Guide vidéo
Partage de voix
FAQ
Exigences du système
- Système d'exploitation Windows 10 ou Ubuntu 20.04+
- 5 Go + espace disque
- GPU NVIDIA avec au moins 4 Go de mémoire et de pilote version 456.38+ (facultatif)
Caractéristiques clés
- Génération automatique de l'ensemble de données (avec prise en charge des sous-titres et des livres audio)
- Support linguistique supplémentaire
- Formation locale et à distance
- Démarrage / arrêt du train facile
- Importation / exportation de données
- Support multi-GPU
Guides manuels
- Installation
- Construire l'ensemble de données
- Entraînement
- Synthèse
- Apporter des changements
Améliorations futures
- Ajouter le support pour talknet
- Ajouter l'alignement GTA pour Hifi-Gan
- Amélioration de l'estimation de la taille du lot
- AMD GPU Support
Autres ressources
- Cahier de formation à distance
- Essayez les voix existantes sur uberduck.ai et vocodes
- Remplacement des données YouTube (créé par DISKR33T # 5880)
- Synthétiser dans Colab (créé par Mega B # 6696)
- Générer la transcription YouTube (créée par Mega B # 6696)
- Transcription wit.ai
Remerciements
Ce projet utilise une version retravaillée de Tacotron2. Tous les droits d'appartenance à Nvidia et suivent les exigences de leur licence BSD-3.
De plus, le projet utilise DSalign, SILERO, DeepSpeech et Hifi-Agan.
Merci au Dr John Bustard à l'Université Queen's Belfast pour son soutien tout au long du projet.
Soutenu par UberDuck.ai, contactez-les pour l'hébergement de modèles en direct.
Aussi un grand merci aux membres de la subdreddit de Vocalsynthesis pour leurs commentaires.
Enfin merci à tous ceux qui soulevent des problèmes et contribuant au projet.