xtts2 ui - Téléchargement du code source xtts2 ui

xtts2 ui

Code Source AI

1.0.0

Télécharger

XTTS-2-UI: une interface utilisateur pour le clonage vocal basé sur le texte XTTS-2

Ce référentiel contient le code essentiel pour le clonage de toute voix en utilisant uniquement du texte et un échantillon audio de 10 secondes de la voix cible. XTTS-2-UI est simple à configurer et à utiliser. Exemple de résultats?

Fonctionne dans 16 langues et a un enregistrement / téléchargement vocal intégré. Remarque: ne vous attendez pas à la qualité du niveau EL, ce n'est pas encore là.

Modèle

Le modèle utilisé est tts_models/multilingual/multi-dataset/xtts_v2 . Pour plus de détails, reportez-vous à Hugging Face - XTTS-V2 et à sa version spécifique XTTS-V2 version 2.0.2.

Table des matières

XTTS-2-UI: une interface utilisateur pour le clonage vocal basé sur le texte XTTS-2
- Modèle
- Table des matières
- Installation
- Inférence
- Ensemble de données de voix cibles
- Exemples d'exemples audio:
- Soutien aux langues
- Notes
- Crédits

Installation

Pour configurer ce projet, suivez ces étapes dans un terminal:

Cloner le référentiel
- Clone le référentiel de votre machine locale.
```
git clone https://github.com/pbanuru/xtts2-ui.git
cd xtts2-ui
```
Créer un environnement virtuel:
- Exécutez la commande suivante pour créer un environnement virtuel Python:
```
python -m venv venv
```
- Activez l'environnement virtuel:
  - Windows:
```
 # cmd prompt
venv S cripts a ctivate
```
    ou
```
 # git bash
source venv/Scripts/activate
```
  - Linux / Mac:
```
 source venv/bin/activate
```
Installer Pytorch:
- Si vous avez un GPU compatible Nvidia Cuda, choisissez la commande d'installation de Pytorch appropriée:
  - Avant d'installer Pytorch, vérifiez votre version CUDA en fonctionnant:
```
nvcc --version
```
  - Pour Cuda 12.1:
```
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
```
  - Pour Cuda 11.8:
```
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
```
- Si vous n'avez pas de GPU compatible Cuda, suivez les instructions sur le site Web de Pytorch pour installer la version appropriée de Pytorch pour votre système.
Installez les autres packages requis:
- Installez les dépendances directes:
```
pip install -r requirements.txt
```
- Améliorez le package TTS vers la dernière version:
```
pip install --upgrade TTS
```

Après avoir terminé ces étapes, votre configuration doit être terminée et vous pouvez commencer à utiliser le projet.

Les modèles seront téléchargés automatiquement lors de la première utilisation.

Télécharger les chemins:

MacOS: /Users/USR/Library/Application Support/tts/tts_models--multilingual--multi-dataset--xtts_v2
Windows: C:Users YOUR-USER-ACCOUNT AppDataLocalttstts_models--multilingual--multi-dataset--xtts_v2
Linux: /home/${USER}/.local/share/tts/tts_models--multilingual--multi-dataset--xtts_v2 /$ nos ;auser }/.local/share/tts/TTS_Models --Multilingal - Multi-Dataset - TXTS_V2

Inférence

Pour exécuter l'application:

 python app.py
OR
streamlit run app2.py

Ou, vous pouvez également courir à partir du terminal lui-même, en fournissant des exemples de textes d'entrée sur des textes.

 python appTerminal.py

Lors d'une utilisation initiale, vous devrez accepter les conditions:

 [XTTS] Loading XTTS...
 > tts_models/multilingual/multi-dataset/xtts_v2 has been updated, clearing model cache...
 > You must agree to the terms of service to use this model.
 | > Please see the terms of service at https://coqui.ai/cpml.txt
 | > "I have read, understood and agreed to the Terms and Conditions." - [y/n]
 | | >

Si votre modèle relève chaque exécution, veuillez consulter le numéro 4723 sur GitHub.

Ensemble de données de voix cibles

L'ensemble de données se compose d'un seul dossier nommé targets , pré-suppléés avec plusieurs voix à des fins de test.

Pour ajouter plus de voix (si vous ne voulez pas passer par l'interface graphique), créez un fichier WAV de 24 kHz d'environ 10 secondes et placez-le sous le dossier targets . Vous pouvez utiliser YT-DLP pour télécharger une voix depuis YouTube pour le clonage:

 yt-dlp -x --audio-format wav "https://www.youtube.com/watch?"

Exemples d'exemples audio:

Langue	Lien d'échantillonnage audio
Anglais	▶ ️
russe	▶ ️
arabe	▶ ️

Soutien aux langues

Arabe, chinois, tchèque, néerlandais, anglais, français, allemand, hongrois, italien, japonais (voir configuration), coréen, polonais, portugais, russe, espagnol, turc

Notes

Si vous souhaitez sélectionner le japonais comme langue cible, vous devez installer un dictionnaire.

 # Lite version
pip install fugashi[unidic-lite]

ou pour un traitement plus sérieux:

 # Full version
pip install fugashi[unidic]
python -m unidic download

Plus de détails ici.

Crédits

Fortement basé sur https://github.com/kanttouchthis/text_generation_webui_xtts/

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-14
taille 3.46MB
Provenant de Github

Applications connexes

Seelen UI

2024-11-11
RVC v2 UI

2024-11-10
ps ui

2024-11-07
UI

2024-11-06
Interface utilisateur du pudding

2024-09-16
Nouvelle interface utilisateur

2009-06-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout