Download GPT SoVITS - GPT SoVITS Download de código -fonte

GPT SoVITS

Código-Fonte de IA

v2

Baixar

GPT-Sovits-Webui

Uma poderosa conversão de voz de poucas fotos e webui de texto em fala.

Inglês |中文简体|日本語| 한국어 | Türkçe

Características:

TTS zero-tiro: Entre uma amostra vocal de 5 segundos e experimente a conversão instantânea de texto em fala.
Feia TTS: ajuste o modelo com apenas 1 minuto de dados de treinamento para melhorar a similaridade e o realismo da voz.
Apoio cruzado: inferência em idiomas diferentes do conjunto de dados de treinamento, atualmente apoiando inglês, japonês, coreano, cantonês e chinês.
Ferramentas da Webui: as ferramentas integradas incluem separação de acompanhamento de voz, segmentação automática do conjunto de treinamento, ASR chinês e rotulagem de texto, auxiliando iniciantes na criação de conjuntos de dados de treinamento e modelos GPT/Sovits.

Confira nosso vídeo de demonstração aqui!

Alto-falantes invisíveis Demonstração de feio de poucos tiro:

poucos.shot.fine.tuning.demo.mp4

Guia do usuário: 简体中文 | Inglês

Instalação

Para os usuários da China, você pode clicar aqui para usar o Autodl Cloud Docker para experimentar a funcionalidade completa online.

Ambientes testados

Python 3.9, Pytorch 2.0.1, Cuda 11
Python 3.10.13, Pytorch 2.1.2, Cuda 12.3
Python 3.9, Pytorch 2.2.2, MacOS 14.4.1 (Apple Silicon)
Python 3.9, Pytorch 2.2.2, dispositivos CPU

Nota: numba == 0,56.4 requer py <3,11

Windows

Se você é um usuário do Windows (testado com win> = 10), pode baixar o pacote integrado e clique duas vezes no go webui.bat para iniciar o GPT-Sovits-webui.

Os usuários da China podem baixar o pacote aqui.

Linux

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh

macos

Nota: Os modelos treinados com GPUs nos MACs resultam em qualidade significativamente menor em comparação com os treinados em outros dispositivos, por isso estamos usando temporariamente as CPUs.

Instale as ferramentas de linha de comando Xcode executando xcode-select --install .
Instale o FFMPEG executando brew install ffmpeg .
Instale o programa executando os seguintes comandos:

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt

Instalar manualmente

Instale o FFMPEG

Usuários do CONDA

conda install ffmpeg

Usuários Ubuntu/Debian

sudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 '

Usuários do Windows

Faça o download e coloque FFMPEG.EXE e FFPROBE.EXE na raiz GPT-Sovits.

Instale o Visual Studio 2017 (somente TTS coreano)

Usuários de Macos

brew install ffmpeg

Instalar dependências

pip install -r requirements.txt

Usando o docker

Configuração do Docker-compose.yaml

Em relação às tags de imagem: devido a atualizações rápidas na base de código e ao lento processo de embalagem e teste de imagens, verifique o Docker Hub para obter as imagens mais recentes atualmente embaladas e selecione conforme sua situação ou, alternativamente, construa localmente usando um dockerfile de acordo com suas próprias necessidades.
Variáveis de ambiente:

IS_HALF: controla a meia precisão/precisão dupla. Essa é normalmente a causa se o conteúdo dos diretórios 4-Cnhubert/5-WAV32K não for gerado corretamente durante a etapa de "extração de SSL". Ajuste -se a verdadeiro ou falso com base em sua situação real.

Configuração de volumes ， O diretório raiz do aplicativo dentro do contêiner é definido como /espaço de trabalho. O Docker-Compose.yaml padrão lista alguns exemplos práticos para fazer upload/download de conteúdo.
SHM_SIZE ： A memória disponível padrão para o Docker Desktop no Windows é muito pequena, o que pode causar operações anormais. Ajuste de acordo com sua própria situação.
Na seção de implantação, as configurações relacionadas à GPU devem ser ajustadas com cautela de acordo com o seu sistema e as circunstâncias reais.

Correndo com Docker Compose

 docker compose -f "docker-compose.yaml" up -d

Correndo com comando Docker

Como acima, modifique os parâmetros correspondentes com base na sua situação real e execute o seguinte comando:

 docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx

Modelos pré -teremam

Os usuários da China podem baixar todos esses modelos aqui.

Faça o download de modelos pré-tenhados dos modelos GPT-Sovits e coloque-os em GPT_SoVITS/pretrained_models .
Faça o download dos modelos G2PW de g2pwmodel_1.1.zip, descompacente e renomeie para G2PWModel e depois coloque -os em GPT_SoVITS/text (somente TTS chinês)
Para UVR5 (separação de vocais/acompanhamento e remoção de reverberação, adicionalmente), baixe modelos de pesos uvr5 e coloque -os em tools/uvr5/uvr5_weights .
Para o ASR chinês (adicionalmente), baixe modelos do modelo Damo ASR, Modelo Damo Vad e modelo Damo Punc e os coloque em tools/asr/models .
Para o ASR em inglês ou japonês (adicionalmente), faça o download dos modelos de V3 mais rápido e coloque -os em tools/asr/models . Além disso, outros modelos podem ter o efeito semelhante com a menor pegada de disco.

Formato do conjunto de dados

O formato de arquivo da anotações TTS.

 vocal_path|speaker_name|language|text

Dicionário de idiomas:

'ZH': chinês
'JA': japonês
'en': inglês
'Ko': coreano
'yue': cantonês

Exemplo:

 D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.

Finetune e inferência

Abra Webui

Usuários de pacotes integrados

Clique duas vezes em go-webui.bat ou use go-webui.ps1 se você quiser mudar para v1, clique duas vezes em go-webui-v1.bat ou use go-webui-v1.ps1

Outros

python webui.py < language(optional) >

Se você quiser mudar para V1, então

python webui.py v1 < language(optional) >

Ou a versão Maunally Switch em Webui

Afinar

Path Auto-preenchimento agora é suportado

 1.Fill in the audio path

 2.Slice the audio into small chunks

 3.Denoise(optinal)

 4.ASR

 5.Proofreading ASR transcriptions

 6.Go to the next Tab, then finetune the model

Abra a inferência webui

Usuários de pacotes integrados

Clique duas vezes go-webui-v2.bat ou use go-webui-v2.ps1 e abra a Inferência Webui em 1-GPT-SoVITS-TTS/1C-inference

Outros

python GPT_SoVITS/inference_webui.py < language(optional) >

OU

python webui.py

Em seguida, abra a inferência webui na 1-GPT-SoVITS-TTS/1C-inference

V2 Notas de liberação

Novos recursos:

Apoie coreano e cantonês
Um front -end de texto otimizado
Modelo pré-treinado estendido de 2 mil horas a 5k horas
Qualidade de síntese aprimorada para áudio de referência de baixa qualidade
Mais detalhes

Use V2 do ambiente V1:

pip install -r requirements.txt para atualizar alguns pacotes
Clone os códigos mais recentes do Github.
Faça o download dos modelos v2 pré-terenciados do huggingface e coloque-os em GPT_SoVITSpretrained_modelsgsv-v2final-pretrained .
V2 chinês adicional: g2pwmodel_1.1.zip （Download Modelos G2PW, descompacte e renomeie o G2PWModel e, em seguida, coloque -os em GPT_SoVITS/text .

Lista de tarefas

(Adicional) Método para fugir da linha de comando

Use a linha de comando para abrir o webui para uvr5

 python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>

É assim que a segmentação de áudio do conjunto de dados é feita usando a linha de comando

 python audio_slicer.py 
    --input_path "<path_to_original_audio_file_or_directory>" 
    --output_root "<directory_where_subdivided_audio_clips_will_be_saved>" 
    --threshold <volume_threshold> 
    --min_length <minimum_duration_of_each_subclip> 
    --min_interval <shortest_time_gap_between_adjacent_subclips> 
    --hop_size <step_size_for_computing_volume_curve>

É assim que o processamento ASR do conjunto de dados é feito usando a linha de comando (apenas chinesa)

 python tools/asr/funasr_asr.py -i <input> -o <output>

O processamento ASR é realizado através de mais rápido_whisper (marcação ASR, exceto chinês)

(Sem barras de progresso, o desempenho da GPU pode causar atrasos no tempo)

 python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>

Um caminho de salvamento da lista personalizado está ativado

Créditos

Agradecimentos especiais aos seguintes projetos e colaboradores:

Pesquisa teórica

ar-vits
SOLSTORM
Vits
Transfertts
Contentvec
Hifi-Gan
Fuls-fala

Modelos pré -teremam

Discurso chinês Pré
Chinês-Roberta-Wwm-Ext-Large

Frontend de texto para inferência

Paddlespeech ZH_Normalization
Langsegment
G2PW
pypinyin-g2pw
Paddlespeech G2PW

Ferramentas Webui

UltimateVocalRemovergui
Audio-slicer
Subfixo
Ffmpeg
Gradio
mais rápido
FUNASR

Agradeço a @Naozumi520 por fornecer o conjunto de treinamento cantonês e pelas orientações sobre o conhecimento relacionado à cantonese.

Obrigado a todos os colaboradores por seus esforços

Expandir

Informações adicionais

Versão v2
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-19
tamanho 6.11MB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
A versão mais recente do filme e televisão GPT

2023-10-30

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos