Descargar xtts webui - Descargar el código fuente xtts webui

xtts webui

Código Fuente de IA

Deepspeed wheels for Windows

Descargar

Xtts-Webui

Versión portátil

El proyecto ahora tiene una versión portátil, por lo que no tiene que tener la molestia de instalar todas las dependencias.

Haga clic aquí para descargar

No necesita nada más que Windows y una tarjeta gráfica NVIDIA con 6 GB de memoria de video para ejecutarla.

La pestaña del tren está rota, si desea entrenar un modelo, use una webui separada

Xtts-Finetune-Webui

ReadMe está disponible en los siguientes idiomas

Inglés

ruso

Português

Sobre el proyecto

XTTS-Webui es una interfaz web que le permite aprovechar al máximo XTTS. Hay otras redes neuronales alrededor de esta interfaz que mejorarán sus resultados. También puede ajustar el modelo y obtener un modelo de voz de alta calidad.

imagen

Características clave

Fácil de trabajar con XTTSV2
Procesamiento por lotes para doblar una gran cantidad de archivos
Capacidad para traducir cualquier audio con el ahorro de voz
Capacidad para mejorar los resultados utilizando redes neuronales y herramientas de audio automáticamente
Capacidad para ajustar el modelo y usarlo inmediatamente
Capacidad para usar herramientas como: RVC , OpenVoice , se asemeja a la mejora , tanto juntos como por separado
Capacidad para personalizar la generación de XTTS, todos los parámetros, múltiples muestras de habla

HACER

Agregue una barra de estado con información de progreso y error
Integre la capacitación en la interfaz estándar
Agregue la capacidad de transmitir para verificar el resultado
Agregue una nueva forma de procesar el texto para la voz en off
Agregue la capacidad de personalizar los altavoces cuando el procesamiento por lotes
Agregar API

Instalación

Use esta interfaz de usuario web a través de Google Colab

Asegúrese de tener Python 3.10.x o Python 3.11, CUDA 11.8 o CUDA 12.1, Microsoft Builder Tools 2019 con el paquete C ++ y FFMPEG instalado

1 método, a través de scripts

Windows

Para comenzar:

Ejecutar el archivo 'install.bat'
Para iniciar la interfaz de usuario web, ejecute 'start_xtts_webui.bat'
Abra su navegador preferido y vaya a la dirección local que se muestra en la consola.

Linux

Para comenzar:

Ejecutar el archivo 'install.sh'
Para iniciar la interfaz de usuario web, ejecute 'start_xtts_webui.sh'
Abra su navegador preferido y vaya a la dirección local que se muestra en la consola.

2 método, manual

Siga estos pasos para la instalación:

Asegúrese de que CUDA esté instalado
Clone The Reposyory: git clone https://github.com/daswer123/xtts-webui
Navegue en el directorio: cd xtts-webui
Crear un entorno virtual: python -m venv venv
Active el entorno virtual:
- En el uso de Windows: venvscriptsactivate
- En el uso de Linux: source venvbinactivate
Instale Pytorch y Torchaudio con el comando PIP:
pip install torch==2.1.1+cu118 torchaudio==2.1.1+cu118 --index-url https://download.pytorch.org/whl/cu118
Instale todas las dependencias de requisitos.txt:
pip install -r requirements.txt

Ejecutando la aplicación

Para iniciar la interfaz, siga estos pasos:

Iniciar XTTS WebUI:

Active su entorno virtual:

venv/scripts/activate

o si estás en Linux,

 source venv/bin/activate

Luego inicie el webUI para XTTS ejecutando este comando:

python app.py

Aquí hay algunos argumentos de tiempo de ejecución que se pueden usar al comenzar la aplicación:

Argumento	Valor predeterminado	Descripción
-hs, --host	127.0.0.1	El anfitrión para vincular a
-p, --port	8010	El número de puerto para escuchar
-d, --device	cuda	Qué dispositivo usar (CPU o CUDA)
-sf,-speaker_folder	altavoces/	Directorio que contiene muestras TTS
-o,-salida	"producción/"	Directorio de salida
-l,-lenguaje	"auto"	Idioma de Webui, puede ver las traducciones disponibles en la carpeta I18N/Locale.
-Ms,-Fuente del modelo	"local"	Defina la fuente del modelo: 'API' para la última versión del repositorio, inferencia de API o 'local' para usar la inferencia local y el modelo v2.0.2
-v, -versión	"v2.0.2"	Puede especificar qué versión de XTTS usar. Puede especificar el nombre del modelo personalizado para este propósito, coloque la carpeta en los modelos y especifique el nombre de la carpeta en este indicador.
--lowvram		Habilitar el modo VRAM bajo que cambia el modelo a RAM cuando no procesa activamente
--profundidad		Habilite la aceleración de la velocidad profunda. Funciona en Windows en Python 3.10 y 3.11
--compartir		Permite compartir la interfaz fuera de la computadora local
--RVC		Habilitar el procesamiento posterior a RVC, todos los modelos deben ubicarse en la carpeta RVC

TTS -> RVC

Módulo Para RVC, puede habilitar el módulo RVC para posterior al proceso recibido para esto, debe agregar el indicador - -RVC si se está ejecutando en la consola o escribirlo en el archivo de inicio

Para que el modelo funcione en la configuración de RVC, debe seleccionar un modelo que primero debe cargar en la carpeta Voice2Voice/RVC, el modelo y el archivo de índice deben estar juntos, el archivo de índice es opcional, cada modelo debe estar en una carpeta separada.

Diferencias entre XTTS-Webui y el WebUI oficial

Proceso de datos

Actualizado más rápido a 0.10.0 con la capacidad de seleccionar un modelo V3 más grande.
Cambiar la carpeta de salida a la carpeta de salida dentro de la carpeta principal.
Si ya hay un conjunto de datos en la carpeta de salida y desea agregar nuevos datos, puede hacerlo simplemente agregando audio nuevo, lo que fue allí no se procesará nuevamente y los nuevos datos se agregarán automáticamente
Encienda el filtro VAD
Después de crear el conjunto de datos, se crea un archivo que especifica el lenguaje del conjunto de datos. Este archivo se lee antes de la capacitación para que el idioma siempre coincida. Es conveniente cuando reinicie la interfaz

Codador de XTTS ajustado

Se agregó la capacidad de seleccionar el modelo base para XTTS, así como cuando vuelve a entrenar no necesita descargar el modelo nuevamente.
Capacidad agregada para seleccionar el modelo personalizado como modelo base durante la capacitación, lo que permitirá el modelo Finetune ya Finetune.
Se agregó la posibilidad de obtener una versión optimizada del modelo para 1 clic (paso 2.5, coloque la versión optimizada en la carpeta de salida).
Puede elegir si eliminar las carpetas de entrenamiento después de haber optimizado el modelo
Cuando optimiza el modelo, el audio de referencia de ejemplo se mueve a la carpeta de salida
Verificar la corrección del idioma especificado y el idioma del conjunto de datos

Inferencia

Se agregó posibilidad de personalizar la configuración de infierno durante la verificación del modelo.

Otro

Si reinicia accidentalmente la interfaz durante uno de los pasos, puede cargar datos en botones adicionales
Eliminó la visualización de registros, ya que estaba causando problemas cuando se reinició
El resultado final se copia en la carpeta Ready, estos son archivos completamente terminados, puede moverlos a cualquier lugar y usarlos como modelo estándar
Soporte agregado para japonés aquí

Expandir

Información adicional

Versión Deepspeed wheels for Windows
Tipo Código Fuente de IA
Fecha de actualización 2025-09-14
tamaño 1.83MB
Proviene de Github

Aplicaciones relacionadas

webui_bfm

2024-11-13
JableTVDownload WebUI

2024-11-12
flux webui

2024-11-09
open webui

2024-11-03
webui

2024-11-02
stable diffusion webui

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo