Outils de clonage vocal
1. Documentation du clonage vocal TTS
Description
Ce script effectue une synthèse de texte-parole à l'aide de la bibliothèque TTS (text-to-dispeophe avec deux modèles distincts: XTTS v2.0.2 et Tortoise. Le script comprend également une fonction utilitaire pour convertir des fichiers MP3 en fichiers WAV segmentés.
Condition préalable
Avant d'exécuter le script, assurez-vous que la bibliothèque TTS est installée à l'aide de la commande suivante:
pip install TTS==0.22.0 transformers==4.37.2 torch torchaudio soundfile librosa
Exécution
python tortoise_TTS_local_best.py
Tâches
XTTS V2.0.2 Synthèse:
- Utilise le modèle XTTS V2.0.2 de la bibliothèque Coqui TTS.
- Effectue la synthèse de texte-parole avec le texte d'entrée spécifié.
- Enregistre l'audio synthétisé sur des fichiers WAV, avec et sans division de phrase.
Conversion mp3 à wav
- Convertit un fichier MP3 d'entrée en fichiers WAV segmentés sans utiliser la bibliothèque PYDUB.
- Segments l'audio à des intervalles de 10 secondes et les enregistre sous forme de fichiers WAV individuels (nécessaires pour la tortue).
Description de la synthèse du modèle de tortue:
- Utilise le modèle de tortue de la bibliothèque Coqui TTS pour une synthèse de haute qualité.
- Charge le modèle de tortue pré-formé et synthétise la parole en fonction du texte d'entrée.
- Enregistre l'audio synthétisé en tant que fichier WAV.
Informations Complémentaires
XTTS v2.0.2 est suggéré pour sa vitesse et sa qualité raisonnable. Tortoise offre la meilleure qualité mais a un temps d'inférence plus long.
Notes
- Assurez-vous que les dépendances sont installées et que les chemins de fichier sont ajustés en conséquence.
- Les URL dans les commentaires fournissent plus d'informations sur les modèles et les configurations.
- N'hésitez pas à modifier le script en fonction des exigences spécifiques et assurez-vous que les ajustements nécessaires sont effectués pour déposer des chemins de file et des dépendances pour une exécution réussie.
2. Documentation de l'analyseur du modèle TTS
Description
Ce script analyse les modèles de texte à dispection (TTS) disponibles dans la bibliothèque TTS, se concentrant spécifiquement sur leur support linguistique et leurs capacités de vocodeur. Il classe les modèles basés sur:
- Multi-langage vs anglais uniquement : si le modèle prend en charge plusieurs langues ou seulement l'anglais.
- Custom vs Voccoder anglais par défaut : si le modèle a un vocodeur anglais personnalisé qui permet le clonage vocal ou un vocodeur par défaut qui ne le fait pas.
Le script suit également le nombre de modèles avec des erreurs et ceux qui sont ignorés pour des raisons spécifiques (par exemple, des modèles connues d'erreurs).
Ventilation du code
Condition préalable
Avant d'exécuter le script, assurez-vous que la bibliothèque TTS est installée à l'aide de la commande suivante:
Exécution
python TTS_download_and_test_all_models.py
Sortir
Le script génère des informations sur les modèles multi-langues avec un vocodeur anglais, des modèles en anglais avec des vocodeurs personnalisés, des modèles multi-langues avec des vocodeurs anglais par défaut et des modèles anglais avec des vocodeurs anglais par défaut. De plus, il identifie des modèles qui prennent en charge les langues non anglophones, les modèles avec des erreurs et les modèles qui devraient être ignorés.
Explication du script
Le script effectue les tâches suivantes:
Importe des bibliothèques nécessaires (TTS, Time, OS).
Configure une minuterie pour mesurer le temps d'exécution du script.
Définit un exemple de texte pour la synthèse de la parole.
Initialise les compteurs et les listes pour diverses catégories de modèles.
Iterates via tous les modèles TTS disponibles.
Téléchargements et charge chaque modèle pour effectuer différentes tâches de texte vocale, en les catégorisant en fonction de la prise en charge du langage et des types de voccoder.
Imprime les résultats, y compris le nombre et les noms des modèles dans chaque catégorie, ainsi que toutes les erreurs rencontrées pendant le processus.
Affiche le nombre total de modèles vérifiés et le temps d'exécution du script.
Effectue une vérification d'affirmation pour assurer le bon comptage des modèles.
Fournit un exemple d'utilisation de TTS pour le texte-vocation avec un modèle multi-haut-parleur et multilingue.
Notes
Certains modèles peuvent être ignorés pour des erreurs ou d'autres raisons (spécifiées dans le code). Le script comprend également un exemple de texte vocal grec dans Colab, en utilisant un modèle spécifique.
Informations Complémentaires
- Bibliothèque TTS: https://github.com/mozilla/tts
- Documentation TTS: https://tts.readthedocs.io/
N'hésitez pas à modifier le script au besoin pour votre cas d'utilisation spécifique ou à l'intégrer dans vos projets pour l'analyse du modèle TTS.
3. Clone vocal utilisant le référentiel de tortue officielle
Aperçu
Ce script démontre l'utilisation du système TTS TTS (text-the-dispection) pour générer une parole à partir du texte d'entrée. Le script utilise la bibliothèque TTS TTS et fournit des instructions pour l'installation. Le discours généré est enregistré en tant que fichier WAV.
Installation
git clone https://github.com/neonbjb/tortoise-tts.git
cd tortoise-tts
pip install -r requirements.txt
pip install librosa einops rotary_embedding_torch omegaconf pydub inflect
python setup.py install
Usage
- Remplacez le chemin de la variable vocale par les échantillons de voix du haut-parleur souhaité.
- Éventuellement, modifiez la variable de texte pour spécifier le texte d'entrée souhaité.
- Exécutez le script avec
python tortoise_API.py pour effectuer des TTs Tortoise et enregistrer le discours généré en tant que fichier WAV.
Tâche Descritpion
Importer les bibliothèques nécessaires:
- Importations Bibliothèques requises, notamment Torchaudio, Tortoise.API, Tortoise.Utils et OS.
Initialiser TTS TTS:
- Initialise Tortoise TTS à l'aide de Tortoise.API.TextTospeech.
- Facultativement, permet à Deeppeed pour des performances plus rapides (commenté car cela pourrait être plus lent dans la pratique).
Spécifiez le texte d'entrée:
- Définit le texte d'entrée à convertir en parole.
Choisissez le préréglage et la voix:
- Sélectionne un mode prédéfini pour déterminer la qualité de la sortie ("Ultra_fast", "Fast", "Standard" ou "High_quality").
- Choisit une voix spécifique en fournissant le chemin des échantillons de voix de l'orateur.
Chargez des clips de référence:
- Charge les clips audio de référence du chemin vocal choisi.
Effectuer des tts avec une tortue:
- Utilise Tortoise TTS pour générer une parole à partir du texte d'entrée.
- Économise le discours généré au format WAV.
Informations Complémentaires
- Le script télécharge des modèles requis à partir du Hub Model Hub (HF).
- Ajustez les paramètres tels que le préréglage et la voix en fonction de vos préférences.
- L'audio généré est enregistré comme «généré_hq_faceswap.wav» dans le répertoire spécifié.
4. Conversion Opus to MP3 (pour le clonage des enregistrements WhatsApp)
Aperçu
Ce script facilite la conversion des fichiers audio OPU au format MP3. Il comprend des fonctions pour lire les fichiers OPU, les convertir en MP3 et combiner plusieurs fichiers MP3 en un seul fichier. Le script offre une flexibilité en permettant aux utilisateurs de spécifier les dossiers d'entrée et de sortie.
Paramètres
opus_folder: Chemin vers le dossier contenant des fichiers OPUS.
mp3_output_folder: Chemin pour enregistrer des fichiers MP3 individuels.
combined_output_folder: chemin pour enregistrer le fichier mp3 combiné.
Le script crée des dossiers de sortie s'ils n'existent pas.
Condition préalable
Tâches
- Lire le fichier opus:
- Lire les fichiers OPUS à l'aide de la bibliothèque Soundfile.
- Renvoie un tableau Numpy et le taux d'échantillonnage.
- Convertir l'opus en mp3
- Utilise la fonction read_opus pour lire les fichiers opus.
- Convertit Opus en MP3 en utilisant la même fréquence d'échantillonnage.
- Enregistre le fichier MP3 dans le dossier de sortie spécifié.
- Convertir les fichiers opus
- Itéra les fichiers OPU dans un dossier et convertit chacun en mp3.
- Renvoie une liste de noms de fichiers MP3 enregistrés.
- Combiner des fichiers MP3
- Combine des fichiers MP3 individuels en un seul.
- Enregistre le fichier MP3 combiné dans le dossier de sortie spécifié.
5. Bark Google Colab (pas très bon)
Aperçu
Ce cahier Jupyter montre le processus de clonage d'une voix à l'aide du système de clones de voix de Bark. Il s'agit de monter Google Drive pour accéder aux échantillons audio pour le clonage, d'installer les bibliothèques nécessaires, de charger des modèles, de générer des jetons sémantiques et enfin, en utilisant ces jetons pour le clonage vocal.
Tâches
Mount Google Drive:
- Monte Google Drive pour accéder au dossier contenant des échantillons de voix pour clone.
Définir les paramètres:
- Définit des paramètres tels que le chemin d'accès au fichier audio, le nom de la voix et le chemin de sortie pour enregistrer les invites vocales clonées.
Installer et importer des bibliothèques:
- Installe et importe des bibliothèques requises, Pytorch, Numpy et autres.
Installer Bark with Voice Clone:
- Installe la bibliothèque Bark avec des clones vocaux du référentiel GitHub fourni.
Modèles de chargement et initialisez Hubert:
- Charge les modèles nécessaires et initialise le gestionnaire de Hubert pour l'extraction de jetons sémantique.
Charge et traitement audio:
- Charge le fichier audio et le convertit pour un traitement ultérieur.
- Extrait des vecteurs sémantiques et des jetons à l'aide du modèle Hubert.
Encoder et enregistrer les invites:
- Encode les cadres audio à l'aide d'OCDOCEC.
- Économise des invites fines, grossières et sémantiques comme des tableaux numpy.
Générer l'audio à l'aide d'écorce:
- Préchargement des modèles d'écorce pour le texte, la grosse génération et la génération fine et le codec.
- Génère l'audio à l'aide d'invites de texte, d'invites sémantiques et d'invites d'historique.
Jouer et enregistrer l'audio généré:
- Plays l'audio généré à l'aide de l'audio d'Ipython.
- Facultativement, enregistre l'audio généré en tant que fichier WAV.
Exécution totale:
- Affiche le temps total pris pour exécuter le script.
Utilisation du script
- Assurez-vous que Google Drive est monté avec l'accès au dossier des échantillons de voix souhaités.
- Modifiez des paramètres tels que
audio_filepath , voice_name et output_path en fonction de votre configuration. - Exécutez le script pour cloner la voix, générer de l'audio et enregistrer éventuellement la sortie.
Informations Complémentaires
- Le script installe et utilise la bibliothèque de clones Bark avec vocal à partir du référentiel GitHub fourni.
- Ajustez les chemins, les paramètres et les invites au besoin pour votre projet de clonage vocal.
- L'audio généré peut être lu directement ou enregistré en tant que fichier WAV.
- Assurez-vous que les dépendances nécessaires sont installées et correctement configurées.
6. COQUI TTS appelant API (ne plus exister - ne peut pas être utilisé)
Aperçu
Ce script présente le processus de clonage d'une voix à l'aide de l'API Coqui TTS. Cela implique d'importer des bibliothèques nécessaires, de passer des appels API pour cloner une voix à partir d'un fichier audio et de générer du texte vocale à l'aide de la voix clonée.
Tâches
Importer des bibliothèques:
- Importe des bibliothèques requises, y compris
requests de réalisation d'appels d'API.
Définir les paramètres:
- Définit des paramètres tels que le chemin d'accès au fichier audio d'entrée, le chemin d'accès pour enregistrer le nouveau fichier audio et le texte à lire.
Appelez l'API Coqui TTS pour le clonage vocal:
- Appelle l'API Coqui TTS pour cloner une voix à partir du fichier audio fourni.
- Extrait l'ID vocal de la voix clonée pour un texte à dispection ultérieur.
Appelez l'API Coqui TTS pour le texte vocal:
- Appelle l'API Coqui TTS pour convertir le texte spécifié en discours en utilisant la voix clonée.
- Récupère l'URL audio du discours généré.
Télécharger et enregistrer l'audio:
- Télécharge le fichier audio généré à partir de l'URL fournie.
- Enregistre le fichier audio sur le chemin spécifié.
Utilisation du script
- Fournissez le chemin du fichier audio d'entrée (
path_audio ), le chemin d'accès pour enregistrer le nouveau fichier audio ( save_path ) et le texte à lire ( text_to_read ). - Obtenez la clé API nécessaire à partir du site Web Coqui TTS et remplacez l'espace réservé dans les
headers par la clé réelle. - Exécutez le script pour cloner la voix et générer du texte vocale.
Informations Complémentaires
- Le script utilise l'API Coqui TTS pour le clonage vocal et le texte à la dissection.
- Ajustez les paramètres et remplacez la touche API en fonction de votre cas d'utilisation spécifique.
- Assurez-vous de vous conformer aux politiques d'utilisation de l'API Coqui TTS.
- Les fichiers audio téléchargés sont enregistrés localement comme spécifié dans
save_path .