Descargar xtts2 ui - Descargar el código fuente de xtts2 ui

xtts2 ui

Código Fuente de IA

1.0.0

Descargar

XTTS-2-UI: una interfaz de usuario para clonación de voz basada en texto XTTS-2

Este repositorio contiene el código esencial para clonar cualquier voz usando solo texto y una muestra de audio de 10 segundos de la voz de destino. XTTS-2-UI es simple de configurar y usar. ¿Resultados de ejemplo?

Funciona en 16 idiomas y tiene grabación/carga de voz incorporada. Nota: No espere la calidad del nivel EL, aún no está allí.

Modelo

El modelo utilizado es tts_models/multilingual/multi-dataset/xtts_v2 . Para obtener más detalles, consulte Hugging Face-XTTS-V2 y su versión específica de XTTS-V2 versión 2.0.2.

Tabla de contenido

XTTS-2-UI: una interfaz de usuario para clonación de voz basada en texto XTTS-2
- Modelo
- Tabla de contenido
- Configuración
- Inferencia
- Conjunto de datos de voces de destino
- Muestra de ejemplos de audio:
- Soporte lingüístico
- Notas
- Créditos

Configuración

Para configurar este proyecto, siga estos pasos en una terminal:

Clonar el repositorio
- Clonar el repositorio de su máquina local.
```
git clone https://github.com/pbanuru/xtts2-ui.git
cd xtts2-ui
```
Crear un entorno virtual:
- Ejecute el siguiente comando para crear un entorno virtual de Python:
```
python -m venv venv
```
- Active el entorno virtual:
  - Windows:
```
 # cmd prompt
venv S cripts a ctivate
```
    o
```
 # git bash
source venv/Scripts/activate
```
  - Linux/Mac:
```
 source venv/bin/activate
```
Instalar pytorch:
- Si tiene una GPU habilitada para NVIDIA CUDA, elija el comando apropiado de instalación de Pytorch:
  - Antes de instalar Pytorch, consulte su versión CUDA ejecutando:
```
nvcc --version
```
  - Para CUDA 12.1:
```
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
```
  - Para Cuda 11.8:
```
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
```
- Si no tiene una GPU habilitado para CUDA,: siga las instrucciones en el sitio web de Pytorch para instalar la versión apropiada de Pytorch para su sistema.
Instale otros paquetes requeridos:
- Instalar dependencias directas:
```
pip install -r requirements.txt
```
- Actualice el paquete TTS a la última versión:
```
pip install --upgrade TTS
```

Después de completar estos pasos, su configuración debe estar completa y puede comenzar a usar el proyecto.

Los modelos se descargarán automáticamente tras el primer uso.

Descargar rutas:

MacOS: /Users/USR/Library/Application Support/tts/tts_models--multilingual--multi-dataset--xtts_v2
Windows: C:Users YOUR-USER-ACCOUNT AppDataLocalttstts_models--multilingual--multi-dataset--xtts_v2
Linux: /home/${USER}/.local/share/tts/tts_models--multilingual--multi-dataset--xtts_v2 /$ =user'/.local/share/tts/tts_models ---multilingüe --multi-dataset--xts_v2

Inferencia

Para ejecutar la aplicación:

 python app.py
OR
streamlit run app2.py

O bien, también puede ejecutar desde el terminal en sí, proporcionando textos de entrada de muestra en texts.json y generar múltiples audios con múltiples altavoces (es posible que deba ajustar en appMerminal.py)

 python appTerminal.py

En el uso inicial, deberá aceptar los términos:

 [XTTS] Loading XTTS...
 > tts_models/multilingual/multi-dataset/xtts_v2 has been updated, clearing model cache...
 > You must agree to the terms of service to use this model.
 | > Please see the terms of service at https://coqui.ai/cpml.txt
 | > "I have read, understood and agreed to the Terms and Conditions." - [y/n]
 | | >

Si su modelo está volviendo a descargar cada ejecución, consulte el problema 4723 en GitHub.

Conjunto de datos de voces de destino

El conjunto de datos consta de una sola carpeta llamada targets , prepoblado con varias voces para fines de prueba.

Para agregar más voces (si no desea pasar por la GUI), cree un archivo WAV de 24 kHz de aproximadamente 10 segundos y colóquelo debajo de la carpeta targets . Puede usar YT-DLP para descargar una voz de YouTube para la clonación:

 yt-dlp -x --audio-format wav "https://www.youtube.com/watch?"

Muestra de ejemplos de audio:

Idioma	Enlace de muestra de audio
Inglés	▶ ️
ruso	▶ ️
árabe	▶ ️

Soporte lingüístico

Árabe, chino, checo, holandés, inglés, francés, alemán, húngaro, italiano, japonés (ver configuración), coreano, polaco, portugués, ruso, español, turco

Notas

Si desea seleccionar el japonés como idioma de destino, debe instalar un diccionario.

 # Lite version
pip install fugashi[unidic-lite]

o para un procesamiento más serio:

 # Full version
pip install fugashi[unidic]
python -m unidic download

Más detalles aquí.

Créditos

Basado en gran medida en https://github.com/kanttouchthis/text_generation_webui_xtts/

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-14
tamaño 3.46MB
Proviene de Github

Aplicaciones relacionadas

Seelen UI

2024-11-11
RVC v2 UI

2024-11-10
ps ui

2024-11-07
UI

2024-11-06
Interfaz de usuario de pudín

2024-09-16
Nueva interfaz de usuario

2009-06-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo