so vits svc fork 다운로드 - so vits svc fork 소스 코드 다운로드

so vits svc fork

기타 소스코드

v4.2.26

다운로드

SOFTVC VITS 노래 음성 변환 포크

简体中文

실시간 지원 과 크게 향상된 인터페이스를 갖춘 so-vits-svc 포크. Branch 4.0 (v1) (또는 4.1 )을 기준으로 모델은 호환됩니다. 4.1 모델은 지원되지 않습니다. 다른 모델도 지원되지 않습니다.

더 이상 유지되지 않습니다

이유

1 년 안에이 기술은 엄청나게 발전했으며 더 나은 대안이 많이 있습니다.
보다 모듈 식적이고 설치하기 쉬운 저장소를 만들고 싶었지만 기술, 시간, 돈이 없었습니다.
Pysimplegui는 더 이상 lgpl이 아닙니다
Typer를 사용하면 Click을 직접 사용하는 것보다 인기가 높아집니다.

대안

새로운 프로젝트/기술에 대해 지나치게 놀랐던 소수의 영향력있는 사람들을 항상 조심하십시오. 모든 소셜 네트워킹 게시물을 반으로 의심해야합니다.

2023 년에 발생한 음성 체인저 붐은 끝났 으며이 저장소의 개발자뿐만 아니라 많은 개발자들이 한동안 활발한 활동을하지 않았습니다.

여기에 나열 할 대안이 너무 많지만 다음과 같습니다.

RVC 제품군 : IAHISPANO/APPLIO (MIT), Fumiama 's RVC (AGPL) 및 원래 RVC (MIT)
VCClient (MIT 등)는 매우 적극적으로 유지 관리되며 실시간 변환을위한 웹 기반 GUI를 제공합니다.
어류 확산은 상당히 모듈 식이되었지만 적극적으로 유지되지는 않았습니다.
YXLLLC/DDSP -SVC- 새로운 릴리스가 가끔 발행됩니다. YXLLLC/Reflow-VAE-SVC
Coqui-AI/TTS는 TTS 용 이었지만 부분적으로 모듈화되었습니다. 그러나 불행히도 더 이상 유지되지 않습니다.

다른 곳에서는 몇몇 신생 기업이 개선되고 판매되는 음성 체인저 (아마도 이익을 위해)를 판매했습니다.

이 저장소에 대한 업데이트는 2023 년 봄부터 유지 보수로 제한되었습니다. ~~여기서 대안 목록을 좁히는 것은 어렵지만 성능이 향상 된 음성 체인저 (특히 품질 이외의 대기 시간)를 찾고 있다면 다른 프로젝트를 시도해보십시오.~~ > ~~그러나이 프로젝트는 순간적으로 음성 변환을 시도하고자하는 사람들에게 이상적 일 수 있습니다 (설치하기 쉽기 때문).~~

원래 Repo에서는 사용할 수없는 기능입니다

실시간 음성 변환 (v1.1.0에서 향상)
QuickVC 부분적으로 통합합니다
원래 저장소에서 ContentVec 의 오용을 수정했습니다. ¹
CREPE 사용한보다 정확한 피치 추정.
Gui 및 Unified CLI를 사용할 수 있습니다
~ 2 배 더 빠른 교육
pip 로 설치하여 사용할 준비가되었습니다.
사전에 사전 된 모델을 자동으로 다운로드하십시오. fairseq 설치할 필요가 없습니다.
블랙, 아이트, 자동 범인 등으로 완전히 포맷 된 코드

설치

옵션 1. 쉬운 설치를 클릭하십시오

이 BAT 파일은 아래에 설명 된 단계를 자동으로 수행합니다.

옵션 2. 수동 설치 (PIPX 사용, 실험)

1. PIPX 설치

Windows (PYPA/PIPX#940으로 인한 개발 버전) :

py -3 -m pip install --user git+https://github.com/pypa/pipx.git
py -3 -m pipx ensurepath

Linux/MacOS :

python -m pip install --user pipx
python -m pipx ensurepath

2. So-Vits-SVC-Fork 설치

pipx install so-vits-svc-fork --python=3.11
pipx inject so-vits-svc-fork torch torchaudio --pip-args= " --upgrade " --index-url=https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121

옵션 3. 수동 설치

가상 환경 생성

Windows :

py -3.11 -m venv venv
venv S cripts a ctivate

Linux/MacOS :

python3.11 -m venv venv
source venv/bin/activate

아나콘다:

conda create -n so-vits-svc-fork python=3.11 pip
conda activate so-vits-svc-fork

가상 환경을 생성하지 않고 설치하면 Python이 프로그램 파일 등에 설치되면 PermissionError 발생할 수 있습니다.

Via PIP (또는 PIP를 사용하는 좋아하는 패키지 관리자)를 Via PIP를 설치하십시오.

python -m pip install -U pip setuptools wheel
pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121
pip install -U so-vits-svc-fork

메모

GPU를 사용할 수 있거나 MacOS를 사용하지 않으면 pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 제거하십시오. MP는 아마도 지원되었을 것입니다.
Linux에서 AMD GPU를 사용하는 경우 --index-url https://download.pytorch.org/whl/cu121 --index-url https://download.pytorch.org/whl/nightly/rocm5.7 로 바꾸십시오. AMD GPU는 Windows (#120)에서 지원되지 않습니다.

업데이트

최신 기능과 버그 수정을 얻으려면이 패키지를 정기적으로 업데이트하십시오.

pip install -U so-vits-svc-fork
# pipx upgrade so-vits-svc-fork

용법

추론

구이

GUI는 다음 명령으로 시작합니다.

svcg

클리

실시간 (마이크에서)

svc vc

파일

svc infer source.wav

포옹 얼굴 또는 Civitai에서 사전 예방 모델을 사용할 수 있습니다.

메모

WSL을 사용하는 경우 WSL은 오디오를 처리하기 위해 추가 설정이 필요하며 GUI는 오디오 장치를 찾지 않고는 작동하지 않습니다.
실시간 추론에서 입력에 노이즈가있는 경우 Hubert 모델도 그 모델에도 반응합니다. 이 경우 RTX 음성과 같은 실시간 노이즈 감소 응용 프로그램을 고려하십시오.
4.0v1 또는이 저장소 이외의 모델은 지원되지 않습니다.
GPU 추론에는 4GB 이상의 VRAM이 필요합니다. 작동하지 않으면 CPU 추론이 충분히 빠르기 때문에 시도하십시오. ²

훈련

훈련하기 전에

데이터 세트에 BGM이있는 경우 Ultimate Vocal Remover와 같은 소프트웨어를 사용하여 BGM을 제거하십시오. 3_HP-Vocal-UVR.pth 또는 UVR-MDX-NET Main 권장됩니다. ³
데이터 세트가 단일 스피커가있는 긴 오디오 파일 인 경우 svc pre-split 사용하여 데이터 세트를 여러 파일 ( librosa 사용)으로 분할하십시오.
데이터 세트가 여러 스피커가있는 긴 오디오 파일 인 경우 svc pre-sd 사용하여 데이터 세트를 여러 파일 ( pyannote.audio 사용)으로 분할하십시오. 정확도 문제로 인해 추가 수동 분류가 필요할 수 있습니다. 스피커가 다양한 음성 스타일로 말하면 실제 스피커 수보다 더 큰-미인 스피커를 설정합니다. 해결되지 않은 종속성으로 인해 pyannote.audio 수동으로 설치하십시오 : pip install pyannote-audio .
오디오 파일을 수동으로 분류하려면 svc pre-classify 사용할 수 있습니다. 위와 아래쪽 화살표 키는 재생 속도를 변경하는 데 사용될 수 있습니다.

구름

⁴

10GB 이상의 VRAM이있는 GPU에 액세스 할 수없는 경우 가벼운 사용자에게는 Google Colab의 무료 계획이 권장되며 PAPERSPACE의 프로/성장 계획은 무거운 사용자에게 권장됩니다. 반대로, 고급 GPU에 액세스 할 수있는 경우 클라우드 서비스 사용은 권장되지 않습니다.

현지의

dataset_raw/{speaker_id}/**/{wav_file}.{any_format} (subfolders 및 nonascii filename이 허용됩니다).

svc pre-resample
svc pre-config
svc pre-hubert
svc train -t

메모

파일 당 데이터 세트 오디오 지속 시간은 <~ 10s 여야합니다.
4GB 이상의 VRAM이 필요합니다. ⁵
VRAM 용량과 일치하기 위해 train 명령 전에 config.json 에서 가능한 한 batch_size 를 최대한 늘리는 것이 좋습니다. batch_size auto-{init_batch_size}-{max_n_trials} (또는 단순히 auto )로 설정하면 OOM 오류가 발생할 때까지 batch_size 자동으로 증가하지만 경우에 따라 유용하지 않을 수 있습니다.
CREPE 사용하려면 svc pre-hubert svc pre-hubert -fm crepe 로 교체하십시오.
ContentVec 올바르게 사용하려면 svc pre-config -t so-vits-svc-4.0v1 로 바꾸십시오. 레거시 초기 생성기 가중치를 재사용하여 일부 가중치가 재설정되므로 훈련이 약간 오래 걸릴 수 있습니다.
MS-iSTFT Decoder 사용하려면 svc pre-config svc pre-config -t quickvc 로 교체하십시오.
침묵 제거 및 부피 정규화는 자동으로 업스트림 리포지토리에서와 같이 수행되며 필요하지 않습니다.
자세한 내용 (예 : 매개 변수 등)은 위키 또는 토론을 볼 수 있습니다.

추가 도움

자세한 내용은 svc -h 또는 svc <subcommand> -h 실행하십시오.

 > svc -h
Usage: svc [OPTIONS] COMMAND [ARGS]...

  so-vits-svc allows any folder structure for training data.
  However, the following folder structure is recommended.
      When training: dataset_raw/{speaker_name}/ ** /{wav_name}.{any_format}
      When inference: configs/44k/config.json, logs/44k/G_XXXX.pth
  If the folder structure is followed, you DO NOT NEED TO SPECIFY model path, config path, etc.
  (The latest model will be automatically loaded.)
  To train a model, run pre-resample, pre-config, pre-hubert, train.
  To infer a model, run infer.

Options:
  -h, --help  Show this message and exit.

Commands:
  clean          Clean up files, only useful if you are using the default file structure
  infer          Inference
  onnx           Export model to onnx (currently not working)
  pre-classify   Classify multiple audio files into multiple files
  pre-config     Preprocessing part 2: config
  pre-hubert     Preprocessing part 3: hubert If the HuBERT model is not found, it will be...
  pre-resample   Preprocessing part 1: resample
  pre-sd         Speech diarization using pyannote.audio
  pre-split      Split audio files into multiple files
  train          Train model If D_0.pth or G_0.pth not found, automatically download from hub.
  train-cluster  Train k-means clustering
  vc             Realtime inference from microphone

외부 링크

비디오 튜토리얼

기고자

이 멋진 사람들에게 감사합니다 (이모티콘 키) :

_34J ? ? ? ? 켈 ✅?	_{개렛 콘웨이} ? ?	_Blueamulet ? ?	_{ThrowawayAccount01} ?	_緋 ?	_Lordmau5 ? ? ? ?	_DL909 ?
_{만족 256} ?	_{Pierluigi Zagaria} ?	_{Ruckusmattster} ?	_Desuka-Art ?	_Heyfixit	_{끔찍한 설치류} ?	_谢宇
_ColdCawfee ?	_Sbersier ? ? ?	_Meldoner ? ?	_mmodeusher ?	_{알론 단} ?	_Likkkez ?	_{덕트 테이프 게임} ?
_{xianglong 그는} ?	_75aosu ?	_Tonyco82 ?	_yxlllc ?	_멍청한 ?	_{Escoolioinglesias} ? ? ?	_{블랙 싱} ?
_{MGS. M. Thoyib Antarnusa} ?	_외부 ?	_{구라 논} ? ?	_{알렉산더 코우 미스}	_{아체 카가미} ?	_Highupech ?	_Scorpi
_maximxls	_Star3lord ?	_{포코 즈} ?	_{Zerui Chen} ?	_{Roee Shenberg} ? ?	_Justas ?	_onako2
_4ll0w3v1l	_J5Y0V6B ? ️	_{마르 셀로 시렐리} ?	_{Priyanshu Patel}	_{Anna Gorshunova} ?

이 프로젝트는 All-Contritors 사양을 따릅니다. 모든 종류의 공헌을 환영합니다!

#206 ↩
#469 ↩
https://ytpmv.info/how-to-use-uvr/ ↩
추천 코드를 등록한 다음 결제 방법을 추가하는 경우 첫 달의 월 청구로 약 $ 5를 절약 할 수 있습니다. 두 추천 보상은 현금이 아닌 종이 공간 크레딧입니다. 어려운 결정 이었지만 초기 모델 디버깅 및 훈련에는 많은 양의 컴퓨팅 성능이 필요하고 개발자는 학생이기 때문에 삽입되었습니다. ↩
#456 ↩

확장하다

추가 정보