简体中文
Um garfo de so-vits-svc com suporte em tempo real e interface muito aprimorada . Com base na filial 4.0 (v1) (ou 4.1 ) e os modelos são compatíveis. 4.1 Os modelos não são suportados. Outros modelos também não são suportados.
Sempre tenha cuidado com os poucos influenciadores que se surpreendem muito com qualquer novo projeto/tecnologia. Você precisa fazer todos os postos de rede social com semi-dupla.
O boom do trocador de voz que ocorreu em 2023 chegou ao fim, e muitos desenvolvedores, não apenas os deste repositório, não estão muito ativos há um tempo.
Existem muitas alternativas para listar aqui, mas:
Em outros lugares, várias startups melhoraram e comercializaram trocadores de voz (provavelmente com fins lucrativos).
As atualizações deste repositório foram limitadas à manutenção desde a primavera de 2023.
É difícil restringir a lista de alternativas aqui, mas considere experimentar outros projetos se estiver procurando um divisor de voz com um desempenho ainda melhor (especialmente em termos de latência além da qualidade).>No entanto, este projeto pode ser ideal para quem deseja experimentar a conversão de voz no momento (porque é fácil de instalar).
QuickVCContentVec no repositório original. 1CREPE .pip .fairseq .Este arquivo BAT executará automaticamente as etapas descritas abaixo.
Windows (versão de desenvolvimento necessária devido ao PYPA/PIPX#940):
py -3 -m pip install --user git+https://github.com/pypa/pipx.git
py -3 -m pipx ensurepathLinux/MacOS:
python -m pip install --user pipx
python -m pipx ensurepathpipx install so-vits-svc-fork --python=3.11
pipx inject so-vits-svc-fork torch torchaudio --pip-args= " --upgrade " --index-url=https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121Windows:
py -3.11 -m venv venv
venv S cripts a ctivateLinux/MacOS:
python3.11 -m venv venv
source venv/bin/activateAnaconda:
conda create -n so-vits-svc-fork python=3.11 pip
conda activate so-vits-svc-fork Instalar sem criar um ambiente virtual pode causar um PermissionError se o Python estiver instalado em arquivos de programas, etc.
Instale isso via Pip (ou seu gerenciador de pacotes favorito que usa PIP):
python -m pip install -U pip setuptools wheel
pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121
pip install -U so-vits-svc-forkpip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 . Os parlamentares provavelmente são suportados.--index-url https://download.pytorch.org/whl/cu121 com --index-url https://download.pytorch.org/whl/nightly/rocm5.7 . As GPUs da AMD não são suportadas no Windows (#120).Atualize este pacote regularmente para obter os recursos mais recentes e correções de bugs.
pip install -U so-vits-svc-fork
# pipx upgrade so-vits-svc-fork A GUI é lançada com o seguinte comando:
svcgsvc vcsvc infer source.wavModelos pré -tenhados estão disponíveis para abraçar o rosto ou civitai.
3_HP-Vocal-UVR.pth ou UVR-MDX-NET Main . 3svc pre-split para dividir o conjunto de dados em vários arquivos (usando librosa ).svc pre-sd para dividir o conjunto de dados em vários arquivos (usando pyannote.audio ). Mais uma classificação manual pode ser necessária devido a problemas de precisão. Se os alto-falantes falarem com uma variedade de estilos de fala, defina--menos-falantes maiores que o número real de alto-falantes. Devido a dependências não resolvidas, instale pyannote.audio manualmente: pip install pyannote-audio .svc pre-classify está disponível. As teclas de seta para cima e para baixo podem ser usadas para alterar a velocidade de reprodução. 4
Se você não tiver acesso a uma GPU com mais de 10 GB de VRAM, o plano gratuito do Google Colab é recomendado para usuários leves e o Plano Pro/Crescimento do Papperspace é recomendado para usuários pesados. Por outro lado, se você tiver acesso a uma GPU de ponta, o uso de serviços em nuvem não será recomendado.
Coloque seu conjunto de dados como dataset_raw/{speaker_id}/**/{wav_file}.{any_format} (subpastas e nomes de arquivos não-ASCII são aceitáveis) e execute:
svc pre-resample
svc pre-config
svc pre-hubert
svc train -tbatch_size o máximo possível no config.json antes do comando train para corresponder à capacidade do VRAM. Configurar batch_size como auto-{init_batch_size}-{max_n_trials} (ou simplesmente auto ) aumentará automaticamente batch_size até que o erro OOM ocorra, mas pode não ser útil em alguns casos.CREPE , substitua svc pre-hubert pelo svc pre-hubert -fm crepe .ContentVec corretamente, substitua svc pre-config por -t so-vits-svc-4.0v1 . O treinamento pode demorar um pouco mais, porque alguns pesos são redefinidos devido à reutilização dos pesos iniciais do gerador legado.MS-iSTFT Decoder , substitua svc pre-config pelo svc pre-config -t quickvc . Para mais detalhes, execute svc -h ou svc <subcommand> -h .
> svc -h
Usage: svc [OPTIONS] COMMAND [ARGS]...
so-vits-svc allows any folder structure for training data.
However, the following folder structure is recommended.
When training: dataset_raw/{speaker_name}/ ** /{wav_name}.{any_format}
When inference: configs/44k/config.json, logs/44k/G_XXXX.pth
If the folder structure is followed, you DO NOT NEED TO SPECIFY model path, config path, etc.
(The latest model will be automatically loaded.)
To train a model, run pre-resample, pre-config, pre-hubert, train.
To infer a model, run infer.
Options:
-h, --help Show this message and exit.
Commands:
clean Clean up files, only useful if you are using the default file structure
infer Inference
onnx Export model to onnx (currently not working)
pre-classify Classify multiple audio files into multiple files
pre-config Preprocessing part 2: config
pre-hubert Preprocessing part 3: hubert If the HuBERT model is not found, it will be...
pre-resample Preprocessing part 1: resample
pre-sd Speech diarization using pyannote.audio
pre-split Split audio files into multiple files
train Train model If D_0.pth or G_0.pth not found, automatically download from hub.
train-cluster Train k-means clustering
vc Realtime inference from microphoneTutorial em vídeo
Obrigado a essas pessoas maravilhosas (key emoji):
34J ? ? ? ? | GarrettConway ? ? | Blueamulet ? ? | Abragem de descarga01 ? | 緋 ? | Lordmau5 ? ? ? ? | DL909 ? |
Satisfy256 ? | Pierluigi Zagaria ? | Ruckusmattster ? | Desuka-Art ? | heyfixit | Roedor nerd ? | 谢宇 |
ColdCawfee ? | Sbersier ? ? ? | Meldoner ? ? | MMODEUSHER ? | Alondan ? | Likkkez ? | Jogos de fita adesiva ? |
Xianglong ele ? | 75AOSU ? | Tonyco82 ? | yxlllc ? | demitido ? | Escoolioinglesias ? ? ? | Blacksingh ? |
MGS. M. Thoyib Antarnusa ? | EXOSFER ? | Guranon ? ? | Alexander Koumis | Acekagami ? | HighPeech ? | Scorpi |
Maximxls | Star3Lord ? | Forkoz ? | Zerui Chen ? | Roee Shenberg ? ? | Justas ? | Onako2 |
4LL0W3V1L | J5Y0V6B ? ️ | Marcellocirelli ? | Priyanshu Patel | Anna Gorshunova ? |
Este projeto segue a especificação de todos os contribuintes. Contribuições de qualquer tipo de boas -vindas!
#206 ↩
#469 ↩
https://ytpmv.info/how-to-use-uvr/ ↩
Se você registrar um código de referência e adicionar um método de pagamento, poderá economizar cerca de US $ 5 no faturamento mensal do seu primeiro mês. Observe que ambas as recompensas de referência são créditos de papel e não dinheiro. Foi uma decisão difícil, mas inserida porque a depuração e o treinamento do modelo inicial requer uma grande quantidade de poder de computação e o desenvolvedor é um estudante. ↩
#456 ↩