Inglês |中文简体|日本語| 한국어 | Türkçe
TTS zero-tiro: Entre uma amostra vocal de 5 segundos e experimente a conversão instantânea de texto em fala.
Feia TTS: ajuste o modelo com apenas 1 minuto de dados de treinamento para melhorar a similaridade e o realismo da voz.
Apoio cruzado: inferência em idiomas diferentes do conjunto de dados de treinamento, atualmente apoiando inglês, japonês, coreano, cantonês e chinês.
Ferramentas da Webui: as ferramentas integradas incluem separação de acompanhamento de voz, segmentação automática do conjunto de treinamento, ASR chinês e rotulagem de texto, auxiliando iniciantes na criação de conjuntos de dados de treinamento e modelos GPT/Sovits.
Confira nosso vídeo de demonstração aqui!
Alto-falantes invisíveis Demonstração de feio de poucos tiro:
Guia do usuário: 简体中文 | Inglês
Para os usuários da China, você pode clicar aqui para usar o Autodl Cloud Docker para experimentar a funcionalidade completa online.
Nota: numba == 0,56.4 requer py <3,11
Se você é um usuário do Windows (testado com win> = 10), pode baixar o pacote integrado e clique duas vezes no go webui.bat para iniciar o GPT-Sovits-webui.
Os usuários da China podem baixar o pacote aqui.
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.shNota: Os modelos treinados com GPUs nos MACs resultam em qualidade significativamente menor em comparação com os treinados em outros dispositivos, por isso estamos usando temporariamente as CPUs.
xcode-select --install .brew install ffmpeg .conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txtconda install ffmpegsudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 ' Faça o download e coloque FFMPEG.EXE e FFPROBE.EXE na raiz GPT-Sovits.
Instale o Visual Studio 2017 (somente TTS coreano)
brew install ffmpegpip install -r requirements.txt docker compose -f "docker-compose.yaml" up -d
Como acima, modifique os parâmetros correspondentes com base na sua situação real e execute o seguinte comando:
docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx
Os usuários da China podem baixar todos esses modelos aqui.
Faça o download de modelos pré-tenhados dos modelos GPT-Sovits e coloque-os em GPT_SoVITS/pretrained_models .
Faça o download dos modelos G2PW de g2pwmodel_1.1.zip, descompacente e renomeie para G2PWModel e depois coloque -os em GPT_SoVITS/text (somente TTS chinês)
Para UVR5 (separação de vocais/acompanhamento e remoção de reverberação, adicionalmente), baixe modelos de pesos uvr5 e coloque -os em tools/uvr5/uvr5_weights .
Para o ASR chinês (adicionalmente), baixe modelos do modelo Damo ASR, Modelo Damo Vad e modelo Damo Punc e os coloque em tools/asr/models .
Para o ASR em inglês ou japonês (adicionalmente), faça o download dos modelos de V3 mais rápido e coloque -os em tools/asr/models . Além disso, outros modelos podem ter o efeito semelhante com a menor pegada de disco.
O formato de arquivo da anotações TTS.
vocal_path|speaker_name|language|text
Dicionário de idiomas:
Exemplo:
D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.
Clique duas vezes em go-webui.bat ou use go-webui.ps1 se você quiser mudar para v1, clique duas vezes em go-webui-v1.bat ou use go-webui-v1.ps1
python webui.py < language(optional) >Se você quiser mudar para V1, então
python webui.py v1 < language(optional) >Ou a versão Maunally Switch em Webui
1.Fill in the audio path
2.Slice the audio into small chunks
3.Denoise(optinal)
4.ASR
5.Proofreading ASR transcriptions
6.Go to the next Tab, then finetune the model
Clique duas vezes go-webui-v2.bat ou use go-webui-v2.ps1 e abra a Inferência Webui em 1-GPT-SoVITS-TTS/1C-inference
python GPT_SoVITS/inference_webui.py < language(optional) >OU
python webui.py Em seguida, abra a inferência webui na 1-GPT-SoVITS-TTS/1C-inference
Novos recursos:
Apoie coreano e cantonês
Um front -end de texto otimizado
Modelo pré-treinado estendido de 2 mil horas a 5k horas
Qualidade de síntese aprimorada para áudio de referência de baixa qualidade
Mais detalhes
Use V2 do ambiente V1:
pip install -r requirements.txt para atualizar alguns pacotes
Clone os códigos mais recentes do Github.
Faça o download dos modelos v2 pré-terenciados do huggingface e coloque-os em GPT_SoVITSpretrained_modelsgsv-v2final-pretrained .
V2 chinês adicional: g2pwmodel_1.1.zip (Download Modelos G2PW, descompacte e renomeie o G2PWModel e, em seguida, coloque -os em GPT_SoVITS/text .
Alta prioridade:
Características:
Use a linha de comando para abrir o webui para uvr5
python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>
É assim que a segmentação de áudio do conjunto de dados é feita usando a linha de comando
python audio_slicer.py
--input_path "<path_to_original_audio_file_or_directory>"
--output_root "<directory_where_subdivided_audio_clips_will_be_saved>"
--threshold <volume_threshold>
--min_length <minimum_duration_of_each_subclip>
--min_interval <shortest_time_gap_between_adjacent_subclips>
--hop_size <step_size_for_computing_volume_curve>
É assim que o processamento ASR do conjunto de dados é feito usando a linha de comando (apenas chinesa)
python tools/asr/funasr_asr.py -i <input> -o <output>
O processamento ASR é realizado através de mais rápido_whisper (marcação ASR, exceto chinês)
(Sem barras de progresso, o desempenho da GPU pode causar atrasos no tempo)
python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>
Um caminho de salvamento da lista personalizado está ativado
Agradecimentos especiais aos seguintes projetos e colaboradores:
Agradeço a @Naozumi520 por fornecer o conjunto de treinamento cantonês e pelas orientações sobre o conhecimento relacionado à cantonese.