Inglés |中文简体|日本語| 한국어 | Türkçe
TTS de disparo cero: ingrese una muestra vocal de 5 segundos y experimente una conversión instantánea de texto a voz.
TTS de pocos disparos: ajuste el modelo con solo 1 minuto de datos de entrenamiento para mejorar la similitud de voz y el realismo.
Soporte interlingüente: inferencia en idiomas diferentes del conjunto de datos de capacitación, que actualmente apoya inglés, japonés, coreano, cantonés y chino.
Herramientas de WebUI: las herramientas integradas incluyen separación de acompañamiento de voz, segmentación de conjunto de capacitación automática, ASR chino y etiquetado de texto, ayudando a principiantes a crear conjuntos de datos de capacitación y modelos GPT/Sovits.
¡Mira nuestro video de demostración aquí!
Altavoces invisibles Demo de ajuste de pocos disparos:
Guía del usuario: 简体中文 | Inglés
Para los usuarios en China, puede hacer clic aquí para usar Autodl Cloud Docker para experimentar la funcionalidad completa en línea.
Nota: Numba == 0.56.4 requiere Py <3.11
Si es un usuario de Windows (probado con Win> = 10), puede descargar el paquete integrado y hacer doble clic en Go-Webui.bat para iniciar GPT-Sovits-Webui.
Los usuarios en China pueden descargar el paquete aquí.
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.shNota: Los modelos entrenados con GPU en MAC dan como resultado una calidad significativamente menor en comparación con los entrenados en otros dispositivos, por lo que estamos utilizando temporalmente CPU.
xcode-select --install .brew install ffmpeg .conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txtconda install ffmpegsudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 ' Descargue y coloque ffmpeg.exe y ffprobe.exe en la raíz GPT-Sovits.
Instalar Visual Studio 2017 (solo TTS coreano)
brew install ffmpegpip install -r requirements.txt docker compose -f "docker-compose.yaml" up -d
Como se indicó anteriormente, modifique los parámetros correspondientes en función de su situación real, luego ejecute el siguiente comando:
docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx
Los usuarios en China pueden descargar todos estos modelos aquí.
Descargue modelos previos a los modelos GPT-SOVITS y colóquelos en GPT_SoVITS/pretrained_models .
Descargue los modelos G2PW de G2PWModel_1.1.zip, descifren y cambie el nombre de G2PWModel , y luego colóquelos en GPT_SoVITS/text . (Solo TTS chino)
Para UVR5 (separación de voces/acompañamiento y eliminación de reverberación, además), descargue modelos de los pesos UVR5 y colóquelos en tools/uvr5/uvr5_weights .
Para ASR chino (además), descargue modelos del modelo DAMO ASR, el modelo DAMO VAD y el modelo DAMO PUNC y colóquelos en tools/asr/models .
Para el inglés o japonés ASR (adicionalmente), descargue modelos de Whisper V3 más rápido y colóquelos en tools/asr/models . Además, otros modelos pueden tener el efecto similar con una huella de disco más pequeña.
El formato de archivo de anotación TTS:
vocal_path|speaker_name|language|text
Diccionario de idiomas:
Ejemplo:
D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.
Haga doble clic go-webui.bat o use go-webui.ps1 Si desea cambiar a V1, luego haga doble clic en go-webui-v1.bat o use go-webui-v1.ps1
python webui.py < language(optional) >Si quieres cambiar a V1, entonces
python webui.py v1 < language(optional) >O la versión de Maunally Switch en Webui
1.Fill in the audio path
2.Slice the audio into small chunks
3.Denoise(optinal)
4.ASR
5.Proofreading ASR transcriptions
6.Go to the next Tab, then finetune the model
Haga doble clic en go-webui-v2.bat o use go-webui-v2.ps1 , luego abra la Inferencia webui en 1-GPT-SoVITS-TTS/1C-inference
python GPT_SoVITS/inference_webui.py < language(optional) >O
python webui.py Luego abra la Inferencia webui en 1-GPT-SoVITS-TTS/1C-inference
Nuevas características:
Apoya a coreano y cantonés
Una interfaz de texto optimizado
Modelo previamente capacitado extendido de 2k horas a 5k horas
Calidad de síntesis mejorada para audio de referencia de baja calidad
Más detalles
Use V2 del entorno V1:
pip install -r requirements.txt Para actualizar algunos paquetes
Clon los últimos códigos de Github.
Descargue los modelos Pretradosos V2 desde Huggingface y póngalos en GPT_SoVITSpretrained_modelsgsv-v2final-pretrained .
Chino V2 Adicional: G2PWModel_1.1.zip (Descargue los modelos G2PW, descifrue y cambie el nombre de G2PWModel , y luego colóquelos en GPT_SoVITS/text .
Alta prioridad:
Características:
Use la línea de comandos para abrir el webui para UVR5
python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>
Así es como se realiza la segmentación de audio del conjunto de datos utilizando la línea de comandos
python audio_slicer.py
--input_path "<path_to_original_audio_file_or_directory>"
--output_root "<directory_where_subdivided_audio_clips_will_be_saved>"
--threshold <volume_threshold>
--min_length <minimum_duration_of_each_subclip>
--min_interval <shortest_time_gap_between_adjacent_subclips>
--hop_size <step_size_for_computing_volume_curve>
Así es como se realiza el procesamiento del conjunto de datos ASR utilizando la línea de comandos (solo chino)
python tools/asr/funasr_asr.py -i <input> -o <output>
El procesamiento ASR se realiza a través de FASTER_WHISPER (marcado ASR excepto el chino)
(Sin barras de progreso, el rendimiento de la GPU puede causar retrasos en el tiempo)
python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>
Se habilita una ruta de guardado de la lista personalizada
Un agradecimiento especial a los siguientes proyectos y contribuyentes:
Agradecido a @Naozumi520 por proporcionar el conjunto de capacitación cantonesa y por la guía sobre el conocimiento relacionado con los cantoneses.