so vits svc fork Download - so vits svc fork Download de código fonte

so vits svc fork

Outro código-fonte

v4.2.26

Baixar

SoftVC Vits Singing Voice Conversão Fork

简体中文

Um garfo de so-vits-svc com suporte em tempo real e interface muito aprimorada . Com base na filial 4.0 (v1) (ou 4.1 ) e os modelos são compatíveis. 4.1 Os modelos não são suportados. Outros modelos também não são suportados.

Não é mais mantido

Razões

Dentro de um ano, a tecnologia evoluiu enormemente e há muitas alternativas melhores
Esperava criar um repositório mais modular e fácil de instalar, mas não tinha habilidades, tempo, dinheiro para fazê-lo
PysimplexGui não é mais LGPL
Usar Typer está ficando mais popular do que usar diretamente clique

Alternativas

Sempre tenha cuidado com os poucos influenciadores que se surpreendem muito com qualquer novo projeto/tecnologia. Você precisa fazer todos os postos de rede social com semi-dupla.

O boom do trocador de voz que ocorreu em 2023 chegou ao fim, e muitos desenvolvedores, não apenas os deste repositório, não estão muito ativos há um tempo.

Existem muitas alternativas para listar aqui, mas:

Família RVC: Iahispano/Applio (MIT), RVC de Fumiama (AGPL) e RVC original (MIT)
O VCClient (MIT etc.) é mantido ativamente e oferece a GUI baseada na Web para conversão em tempo real.
A difusão de peixes tentou ser bastante modular, mas não mantida ativamente.
YXLLLC/DDSP -SVC - Novos lançamentos são emitidos ocasionalmente. yxlllc/refllow-VAE-SVC
O COQUI-AI/TTS foi para TTS, mas era parcialmente modular. No entanto, infelizmente não é mantido.

Em outros lugares, várias startups melhoraram e comercializaram trocadores de voz (provavelmente com fins lucrativos).

As atualizações deste repositório foram limitadas à manutenção desde a primavera de 2023. É difícil restringir a lista de alternativas aqui, mas considere experimentar outros projetos se estiver procurando um divisor de voz com um desempenho ainda melhor (especialmente em termos de latência além da qualidade). > ~~No entanto, este projeto pode ser ideal para quem deseja experimentar a conversão de voz no momento (porque é fácil de instalar).~~

Recursos não disponíveis no repositório original

Conversão de voz em tempo real (aprimorada em v1.1.0)
Integra parcialmente QuickVC
Uso indevido fixo do ContentVec no repositório original. ¹
Estimativa de afinação mais precisa usando CREPE .
GUI e CLI unificada disponível
~ 2x treinamento mais rápido
Pronto para usar apenas instalando com pip .
Faça o download automaticamente de modelos pré -terenciados. Não há necessidade de instalar fairseq .
Código completamente formatado com preto, isort, Autoflake etc.

Instalação

Opção 1. Um clique em instalação fácil

Este arquivo BAT executará automaticamente as etapas descritas abaixo.

Opção 2. Instalação manual (usando pipx, experimental)

1. Instalando o PIPX

Windows (versão de desenvolvimento necessária devido ao PYPA/PIPX#940):

py -3 -m pip install --user git+https://github.com/pypa/pipx.git
py -3 -m pipx ensurepath

Linux/MacOS:

python -m pip install --user pipx
python -m pipx ensurepath

2. Instalando SO-Vits-SVC-Fork

pipx install so-vits-svc-fork --python=3.11
pipx inject so-vits-svc-fork torch torchaudio --pip-args= " --upgrade " --index-url=https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121

Opção 3. Instalação manual

Criando um ambiente virtual

Windows:

py -3.11 -m venv venv
venv S cripts a ctivate

Linux/MacOS:

python3.11 -m venv venv
source venv/bin/activate

Anaconda:

conda create -n so-vits-svc-fork python=3.11 pip
conda activate so-vits-svc-fork

Instalar sem criar um ambiente virtual pode causar um PermissionError se o Python estiver instalado em arquivos de programas, etc.

Instale isso via Pip (ou seu gerenciador de pacotes favorito que usa PIP):

python -m pip install -U pip setuptools wheel
pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121
pip install -U so-vits-svc-fork

Notas

Se nenhuma GPU estiver disponível ou usando macOS, basta remover pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 . Os parlamentares provavelmente são suportados.
Se você estiver usando uma GPU AMD no Linux, substitua --index-url https://download.pytorch.org/whl/cu121 com --index-url https://download.pytorch.org/whl/nightly/rocm5.7 . As GPUs da AMD não são suportadas no Windows (#120).

Atualizar

Atualize este pacote regularmente para obter os recursos mais recentes e correções de bugs.

pip install -U so-vits-svc-fork
# pipx upgrade so-vits-svc-fork

Uso

Inferência

GUI

A GUI é lançada com o seguinte comando:

svcg

CLI

Em tempo real (do microfone)

svc vc

Arquivo

svc infer source.wav

Modelos pré -tenhados estão disponíveis para abraçar o rosto ou civitai.

Notas

Se estiver usando o WSL, observe que o WSL requer configuração adicional para lidar com o áudio e a GUI não funcionará sem encontrar um dispositivo de áudio.
Na inferência em tempo real, se houver ruído nas entradas, o modelo Hubert reagirá a elas também. Considere o uso de aplicativos de redução de ruído em tempo real, como a voz RTX neste caso.
Modelos que não sejam para 4.0V1 ou este repositório não são suportados.
A inferência de GPU requer pelo menos 4 GB de VRAM. Se não funcionar, tente a inferência da CPU, pois é rápida o suficiente. ²

Treinamento

Antes do treinamento

Se o seu conjunto de dados tiver BGM, remova o BGM usando software como o removedor vocal final. Recomenda 3_HP-Vocal-UVR.pth ou UVR-MDX-NET Main . ³
Se o seu conjunto de dados for um arquivo de áudio longo com um único alto-falante, use svc pre-split para dividir o conjunto de dados em vários arquivos (usando librosa ).
Se o seu conjunto de dados for um arquivo de áudio longo com vários alto-falantes, use svc pre-sd para dividir o conjunto de dados em vários arquivos (usando pyannote.audio ). Mais uma classificação manual pode ser necessária devido a problemas de precisão. Se os alto-falantes falarem com uma variedade de estilos de fala, defina--menos-falantes maiores que o número real de alto-falantes. Devido a dependências não resolvidas, instale pyannote.audio manualmente: pip install pyannote-audio .
Para classificar manualmente os arquivos de áudio, svc pre-classify está disponível. As teclas de seta para cima e para baixo podem ser usadas para alterar a velocidade de reprodução.

Nuvem

⁴

Se você não tiver acesso a uma GPU com mais de 10 GB de VRAM, o plano gratuito do Google Colab é recomendado para usuários leves e o Plano Pro/Crescimento do Papperspace é recomendado para usuários pesados. Por outro lado, se você tiver acesso a uma GPU de ponta, o uso de serviços em nuvem não será recomendado.

Local

Coloque seu conjunto de dados como dataset_raw/{speaker_id}/**/{wav_file}.{any_format} (subpastas e nomes de arquivos não-ASCII são aceitáveis) e execute:

svc pre-resample
svc pre-config
svc pre-hubert
svc train -t

Notas

A duração do áudio do conjunto de dados por arquivo deve ser <~ 10s.
Precisa de pelo menos 4 GB de VRAM. ⁵
Recomenda -se aumentar o batch_size o máximo possível no config.json antes do comando train para corresponder à capacidade do VRAM. Configurar batch_size como auto-{init_batch_size}-{max_n_trials} (ou simplesmente auto ) aumentará automaticamente batch_size até que o erro OOM ocorra, mas pode não ser útil em alguns casos.
Para usar CREPE , substitua svc pre-hubert pelo svc pre-hubert -fm crepe .
Para usar ContentVec corretamente, substitua svc pre-config por -t so-vits-svc-4.0v1 . O treinamento pode demorar um pouco mais, porque alguns pesos são redefinidos devido à reutilização dos pesos iniciais do gerador legado.
Para usar MS-iSTFT Decoder , substitua svc pre-config pelo svc pre-config -t quickvc .
A remoção do silêncio e a normalização do volume são executadas automaticamente (como no repositório a montante) e não são necessárias.
Se você treinou em um conjunto de dados grande e sem direitos autorais, considere lançá-lo como um modelo inicial.
Para mais detalhes (por exemplo, parâmetros, etc.), você pode ver o wiki ou discussões.

Ajuda adicional

Para mais detalhes, execute svc -h ou svc <subcommand> -h .

 > svc -h
Usage: svc [OPTIONS] COMMAND [ARGS]...

  so-vits-svc allows any folder structure for training data.
  However, the following folder structure is recommended.
      When training: dataset_raw/{speaker_name}/ ** /{wav_name}.{any_format}
      When inference: configs/44k/config.json, logs/44k/G_XXXX.pth
  If the folder structure is followed, you DO NOT NEED TO SPECIFY model path, config path, etc.
  (The latest model will be automatically loaded.)
  To train a model, run pre-resample, pre-config, pre-hubert, train.
  To infer a model, run infer.

Options:
  -h, --help  Show this message and exit.

Commands:
  clean          Clean up files, only useful if you are using the default file structure
  infer          Inference
  onnx           Export model to onnx (currently not working)
  pre-classify   Classify multiple audio files into multiple files
  pre-config     Preprocessing part 2: config
  pre-hubert     Preprocessing part 3: hubert If the HuBERT model is not found, it will be...
  pre-resample   Preprocessing part 1: resample
  pre-sd         Speech diarization using pyannote.audio
  pre-split      Split audio files into multiple files
  train          Train model If D_0.pth or G_0.pth not found, automatically download from hub.
  train-cluster  Train k-means clustering
  vc             Realtime inference from microphone

Links externos

Tutorial em vídeo

Colaboradores

Obrigado a essas pessoas maravilhosas (key emoji):

_34J ? ? ? ? ️ ✅?	_{GarrettConway} ? ?	_Blueamulet ? ?	_{Abragem de descarga01} ?	_緋 ?	_Lordmau5 ? ? ? ?	_DL909 ?
_Satisfy256 ?	_{Pierluigi Zagaria} ?	_{Ruckusmattster} ?	_Desuka-Art ?	_heyfixit	_{Roedor nerd} ?	_谢宇
_ColdCawfee ?	_Sbersier ? ? ?	_Meldoner ? ?	_MMODEUSHER ?	_Alondan ?	_Likkkez ?	_{Jogos de fita adesiva} ?
_{Xianglong ele} ?	_75AOSU ?	_Tonyco82 ?	_yxlllc ?	_demitido ?	_{Escoolioinglesias} ? ? ?	_Blacksingh ?
_{MGS. M. Thoyib Antarnusa} ?	_EXOSFER ?	_Guranon ? ?	_{Alexander Koumis}	_Acekagami ?	_HighPeech ?	_Scorpi
_Maximxls	_Star3Lord ?	_Forkoz ?	_{Zerui Chen} ?	_{Roee Shenberg} ? ?	_Justas ?	_Onako2
_4LL0W3V1L	_J5Y0V6B ? ️	_{Marcellocirelli} ?	_{Priyanshu Patel}	_{Anna Gorshunova} ?

Este projeto segue a especificação de todos os contribuintes. Contribuições de qualquer tipo de boas -vindas!

#206 ↩
#469 ↩
https://ytpmv.info/how-to-use-uvr/ ↩
Se você registrar um código de referência e adicionar um método de pagamento, poderá economizar cerca de US $ 5 no faturamento mensal do seu primeiro mês. Observe que ambas as recompensas de referência são créditos de papel e não dinheiro. Foi uma decisão difícil, mas inserida porque a depuração e o treinamento do modelo inicial requer uma grande quantidade de poder de computação e o desenvolvedor é um estudante. ↩
#456 ↩

Expandir

Informações adicionais