Descargar GPT SoVITS - Descargar código fuente GPT SoVITS

GPT SoVITS

Código Fuente de IA

v2

Descargar

Gpt-sovits-webui

Una poderosa conversión de voz de pocos disparos y webui de texto a voz.

Inglés |中文简体|日本語| 한국어 | Türkçe

Características:

TTS de disparo cero: ingrese una muestra vocal de 5 segundos y experimente una conversión instantánea de texto a voz.
TTS de pocos disparos: ajuste el modelo con solo 1 minuto de datos de entrenamiento para mejorar la similitud de voz y el realismo.
Soporte interlingüente: inferencia en idiomas diferentes del conjunto de datos de capacitación, que actualmente apoya inglés, japonés, coreano, cantonés y chino.
Herramientas de WebUI: las herramientas integradas incluyen separación de acompañamiento de voz, segmentación de conjunto de capacitación automática, ASR chino y etiquetado de texto, ayudando a principiantes a crear conjuntos de datos de capacitación y modelos GPT/Sovits.

¡Mira nuestro video de demostración aquí!

Altavoces invisibles Demo de ajuste de pocos disparos:

pocos.shot.fine.tuning.demo.mp4

Guía del usuario: 简体中文 | Inglés

Instalación

Para los usuarios en China, puede hacer clic aquí para usar Autodl Cloud Docker para experimentar la funcionalidad completa en línea.

Entornos probados

Python 3.9, Pytorch 2.0.1, Cuda 11
Python 3.10.13, Pytorch 2.1.2, Cuda 12.3
Python 3.9, Pytorch 2.2.2, MacOS 14.4.1 (Apple Silicon)
Python 3.9, Pytorch 2.2.2, dispositivos de CPU

Nota: Numba == 0.56.4 requiere Py <3.11

Windows

Si es un usuario de Windows (probado con Win> = 10), puede descargar el paquete integrado y hacer doble clic en Go-Webui.bat para iniciar GPT-Sovits-Webui.

Los usuarios en China pueden descargar el paquete aquí.

Linux

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh

macosa

Nota: Los modelos entrenados con GPU en MAC dan como resultado una calidad significativamente menor en comparación con los entrenados en otros dispositivos, por lo que estamos utilizando temporalmente CPU.

Instale las herramientas de línea de comandos Xcode ejecutando xcode-select --install .
Instale FFMPEG ejecutando brew install ffmpeg .
Instale el programa ejecutando los siguientes comandos:

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt

Instalar manualmente

Instalar ffmpeg

Usuarios de conda

conda install ffmpeg

Usuarios de Ubuntu/Debian

sudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 '

Usuarios de Windows

Descargue y coloque ffmpeg.exe y ffprobe.exe en la raíz GPT-Sovits.

Instalar Visual Studio 2017 (solo TTS coreano)

Usuarios de macOS

brew install ffmpeg

Instalar dependencias

pip install -r requirements.txt

Usando Docker

Configuración de Docker-Compose.yaml

Con respecto a las etiquetas de imagen: debido a las actualizaciones rápidas en la base de código y al proceso lento de las imágenes de embalaje y prueba, verifique el centro de Docker para las últimas imágenes actualmente empaquetadas y seleccione según su situación, o alternativamente, construya localmente utilizando un DockerFile de acuerdo con sus propias necesidades.
Variables de entorno:

IS_HALF: controla la mitad de precisión/doble precisión. Esta es típicamente la causa si el contenido en los directorios 4-CNHubert/5-WAV32K no se genera correctamente durante el paso "SSL Extracción". Ajuste a verdadero o falso según su situación real.

Configuración de volúmenes, el directorio raíz de la aplicación dentro del contenedor está configurado en /espacio de trabajo. El Docker-Compose.yaml predeterminado enumera algunos ejemplos prácticos para cargar/descargar contenido.
SHM_SIZE: la memoria disponible predeterminada para Docker Desktop en Windows es demasiado pequeña, lo que puede causar operaciones anormales. Ajuste de acuerdo con su propia situación.
Según la sección de implementación, la configuración relacionada con GPU debe ajustarse con cautela de acuerdo con su sistema y circunstancias reales.

Ejecutando con Docker Compose

 docker compose -f "docker-compose.yaml" up -d

Ejecutando con el comando Docker

Como se indicó anteriormente, modifique los parámetros correspondientes en función de su situación real, luego ejecute el siguiente comando:

 docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx

Modelos previos a la aparición

Los usuarios en China pueden descargar todos estos modelos aquí.

Descargue modelos previos a los modelos GPT-SOVITS y colóquelos en GPT_SoVITS/pretrained_models .
Descargue los modelos G2PW de G2PWModel_1.1.zip, descifren y cambie el nombre de G2PWModel , y luego colóquelos en GPT_SoVITS/text . (Solo TTS chino)
Para UVR5 (separación de voces/acompañamiento y eliminación de reverberación, además), descargue modelos de los pesos UVR5 y colóquelos en tools/uvr5/uvr5_weights .
Para ASR chino (además), descargue modelos del modelo DAMO ASR, el modelo DAMO VAD y el modelo DAMO PUNC y colóquelos en tools/asr/models .
Para el inglés o japonés ASR (adicionalmente), descargue modelos de Whisper V3 más rápido y colóquelos en tools/asr/models . Además, otros modelos pueden tener el efecto similar con una huella de disco más pequeña.

Formato de conjunto de datos

El formato de archivo de anotación TTS:

 vocal_path|speaker_name|language|text

Diccionario de idiomas:

'Zh': chino
'Ja': japonés
'en': inglés
'Ko': coreano
'Yue': cantonés

Ejemplo:

 D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.

Finetune e inferencia

Abrir webui

Usuarios de paquetes integrados

Haga doble clic go-webui.bat o use go-webui.ps1 Si desea cambiar a V1, luego haga doble clic en go-webui-v1.bat o use go-webui-v1.ps1

Otros

python webui.py < language(optional) >

Si quieres cambiar a V1, entonces

python webui.py v1 < language(optional) >

O la versión de Maunally Switch en Webui

Afinar

El repleto automático de la ruta ahora es compatible

 1.Fill in the audio path

 2.Slice the audio into small chunks

 3.Denoise(optinal)

 4.ASR

 5.Proofreading ASR transcriptions

 6.Go to the next Tab, then finetune the model

Inferencia abierta webui

Usuarios de paquetes integrados

Haga doble clic en go-webui-v2.bat o use go-webui-v2.ps1 , luego abra la Inferencia webui en 1-GPT-SoVITS-TTS/1C-inference

Otros

python GPT_SoVITS/inference_webui.py < language(optional) >

O

python webui.py

Luego abra la Inferencia webui en 1-GPT-SoVITS-TTS/1C-inference

Notas de lanzamiento de V2

Nuevas características:

Apoya a coreano y cantonés
Una interfaz de texto optimizado
Modelo previamente capacitado extendido de 2k horas a 5k horas
Calidad de síntesis mejorada para audio de referencia de baja calidad
Más detalles

Use V2 del entorno V1:

pip install -r requirements.txt Para actualizar algunos paquetes
Clon los últimos códigos de Github.
Descargue los modelos Pretradosos V2 desde Huggingface y póngalos en GPT_SoVITSpretrained_modelsgsv-v2final-pretrained .
Chino V2 Adicional: G2PWModel_1.1.zip （Descargue los modelos G2PW, descifrue y cambie el nombre de G2PWModel , y luego colóquelos en GPT_SoVITS/text .

Lista de tareas

(Adicional) Método para ejecutar desde la línea de comandos

Use la línea de comandos para abrir el webui para UVR5

 python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>

Así es como se realiza la segmentación de audio del conjunto de datos utilizando la línea de comandos

 python audio_slicer.py 
    --input_path "<path_to_original_audio_file_or_directory>" 
    --output_root "<directory_where_subdivided_audio_clips_will_be_saved>" 
    --threshold <volume_threshold> 
    --min_length <minimum_duration_of_each_subclip> 
    --min_interval <shortest_time_gap_between_adjacent_subclips> 
    --hop_size <step_size_for_computing_volume_curve>

Así es como se realiza el procesamiento del conjunto de datos ASR utilizando la línea de comandos (solo chino)

 python tools/asr/funasr_asr.py -i <input> -o <output>

El procesamiento ASR se realiza a través de FASTER_WHISPER (marcado ASR excepto el chino)

(Sin barras de progreso, el rendimiento de la GPU puede causar retrasos en el tiempo)

 python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>

Se habilita una ruta de guardado de la lista personalizada

Créditos

Un agradecimiento especial a los siguientes proyectos y contribuyentes:

Investigación teórica

vits
Tormenta de sonido
vits
Transferencia
contentvec
hifi-gan
voz de pescado

Modelos previos a la aparición

Pretrano del habla china
Chino-roBerta-wwm-ext-large

Texto frontend por inferencia

paldlespeech zh_normalización
Langegment
G2PW
pypinyin-g2pw
Paddlespeech G2PW

Herramientas webui

UltimateVocalremovergui
audiolícola
Subfijo
Ffmpeg
Gradio
más rápido
Funasr

Agradecido a @Naozumi520 por proporcionar el conjunto de capacitación cantonesa y por la guía sobre el conocimiento relacionado con los cantoneses.

Gracias a todos los contribuyentes por sus esfuerzos

Expandir

Información adicional

Versión v2
Tipo Código Fuente de IA
Fecha de actualización 2025-08-19
tamaño 6.11MB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
La última versión de GPT cine y televisión.

2023-10-30

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo