简体中文
Eine Gabel von so-vits-svc mit Realzeitunterstützung und stark verbesserter Schnittstelle . Basierend auf Branch 4.0 (v1) (oder 4.1 ) und die Modelle sind kompatibel. 4.1 Modelle werden nicht unterstützt. Andere Modelle werden ebenfalls nicht unterstützt.
Achten Sie immer auf die wenigen Influencer, die über überrascht über jedes neue Projekt/jede neue Technologie überrascht sind. Sie müssen jeden Social-Networking-Beitrag mit Semi-Doubt nehmen.
Der im Jahr 2023 auftretende Sprachwechsler -Boom ist zu Ende gegangen, und viele Entwickler, nicht nur die in diesem Repository, sind seit einiger Zeit nicht sehr aktiv.
Es gibt zu viele Alternativen, um hier zu listen, aber:
An anderer Stelle haben sich mehrere Start-ups verbessert und Voice Changers vermarktet (wahrscheinlich aus Gewinn).
Die Aktualisierungen dieses Repositorys sind seit dem Frühjahr 2023 auf Wartung beschränkt.
Es ist schwierig, die Liste der Alternativen hier einzugrenzen. Wenn Sie nach einem Sprachwechsler mit einer noch besseren Leistung suchen (insbesondere in Bezug auf die Latenz als Qualität), sollten Sie andere Projekte ausprobieren.>Dieses Projekt ist jedoch möglicherweise ideal für diejenigen, die für den Moment die Sprachumwandlung ausprobieren möchten (da es einfach zu installieren ist).
QuickVCContentVec im ursprünglichen Repository. 1CREPE .pip installiert werden.fairseq zu installieren.Diese Fledermausdatei führt automatisch die unten beschriebenen Schritte aus.
Windows (Entwicklungsversion erforderlich aufgrund von PYPA/PIPX#940):
py -3 -m pip install --user git+https://github.com/pypa/pipx.git
py -3 -m pipx ensurepathLinux/macos:
python -m pip install --user pipx
python -m pipx ensurepathpipx install so-vits-svc-fork --python=3.11
pipx inject so-vits-svc-fork torch torchaudio --pip-args= " --upgrade " --index-url=https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121Fenster:
py -3.11 -m venv venv
venv S cripts a ctivateLinux/macos:
python3.11 -m venv venv
source venv/bin/activateAnakonda:
conda create -n so-vits-svc-fork python=3.11 pip
conda activate so-vits-svc-fork Die Installation ohne Erstellung einer virtuellen Umgebung kann zu einem PermissionError führen, wenn Python in Programmdateien usw. installiert ist.
Installieren Sie dies über PIP (oder Ihren bevorzugten Paketmanager, der PIP verwendet):
python -m pip install -U pip setuptools wheel
pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121
pip install -U so-vits-svc-forkpip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 . MPS wird wahrscheinlich unterstützt.--index-url https://download.pytorch.org/whl/cu121 mit --index-url https://download.pytorch.org/whl/nightly/rocm5.7 . AMD -GPUs werden unter Windows nicht unterstützt (#120).Bitte aktualisieren Sie dieses Paket regelmäßig, um die neuesten Funktionen und Fehlerbehebungen zu erhalten.
pip install -U so-vits-svc-fork
# pipx upgrade so-vits-svc-fork GUI startet mit dem folgenden Befehl:
svcgsvc vcsvc infer source.wavVorbereitete Modelle sind auf Umarmung von Gesicht oder Civitai erhältlich.
3_HP-Vocal-UVR.pth oder UVR-MDX-NET Main wird empfohlen. 3svc pre-split in mehrere Dateien (mit librosa ) in mehrere Dateien.svc pre-sd um den Datensatz in mehrere Dateien (mit pyannote.audio ) in mehrere Dateien aufzuteilen. Eine weitere manuelle Klassifizierung kann aufgrund von Genauigkeitsproblemen erforderlich sein. Wenn die Sprecher mit einer Vielzahl von Sprachstilen sprechen, setzen Sie-MIN-Lautsprecher größer als die tatsächliche Anzahl von Sprechern. Aufgrund von ungelösten Abhängigkeiten installieren Sie bitte pyannote.audio manuell: pip install pyannote-audio .svc pre-classify verfügbar. Auf und ab Pfeiltasten können verwendet werden, um die Wiedergabegeschwindigkeit zu ändern. 4
Wenn Sie keinen Zugriff auf eine GPU mit mehr als 10 GB VRAM haben, wird der kostenlose Plan von Google Colab für leichte Benutzer empfohlen, und der Pro/Wachstumsplan von Papierspace wird für schwere Benutzer empfohlen. Wenn Sie umgekehrt auf eine High-End-GPU zugreifen, wird die Verwendung von Cloud-Diensten nicht empfohlen.
Platzieren Sie Ihren Datensatz wie dataset_raw/{speaker_id}/**/{wav_file}.{any_format} (Unterordner und Nicht-ASCII-Dateinamen sind akzeptabel) und führen Sie aus:
svc pre-resample
svc pre-config
svc pre-hubert
svc train -tbatch_size so weit wie möglich in config.json vor dem train so weit wie möglich zu erhöhen, um die VRAM -Kapazität zu entsprechen. Einstellen batch_size in auto-{init_batch_size}-{max_n_trials} (oder einfach auto ) erhöht automatisch batch_size , bis der OOM-Fehler auftritt, aber in einigen Fällen möglicherweise nicht nützlich ist.CREPE zu verwenden, ersetzen Sie svc pre-hubert durch svc pre-hubert -fm crepe .ContentVec korrekt zu verwenden, ersetzen Sie svc pre-config durch -t so-vits-svc-4.0v1 . Das Training kann etwas länger dauern, da einige Gewichte zurückgesetzt werden, da die anfänglichen Erstgeneratorgewichte wiederverwendet werden.MS-iSTFT Decoder zu verwenden, ersetzen Sie svc pre-config durch svc pre-config -t quickvc . Weitere Details führen Sie svc -h oder svc <subcommand> -h aus.
> svc -h
Usage: svc [OPTIONS] COMMAND [ARGS]...
so-vits-svc allows any folder structure for training data.
However, the following folder structure is recommended.
When training: dataset_raw/{speaker_name}/ ** /{wav_name}.{any_format}
When inference: configs/44k/config.json, logs/44k/G_XXXX.pth
If the folder structure is followed, you DO NOT NEED TO SPECIFY model path, config path, etc.
(The latest model will be automatically loaded.)
To train a model, run pre-resample, pre-config, pre-hubert, train.
To infer a model, run infer.
Options:
-h, --help Show this message and exit.
Commands:
clean Clean up files, only useful if you are using the default file structure
infer Inference
onnx Export model to onnx (currently not working)
pre-classify Classify multiple audio files into multiple files
pre-config Preprocessing part 2: config
pre-hubert Preprocessing part 3: hubert If the HuBERT model is not found, it will be...
pre-resample Preprocessing part 1: resample
pre-sd Speech diarization using pyannote.audio
pre-split Split audio files into multiple files
train Train model If D_0.pth or G_0.pth not found, automatically download from hub.
train-cluster Train k-means clustering
vc Realtime inference from microphoneVideo -Tutorial
Vielen Dank an diese wunderbaren Menschen (Emoji -Schlüssel):
34J ? ? ? ? | GarrettConway ? ? | Blueamulet ? ? | ThrowawayAccount01 ? | 緋 ? | Lordmau5 ? ? ? ? | DL909 ? |
Zufrieden256 ? | Pierluigi Zagaria ? | Ruckusmattster ? | Desuka-Art ? | Heyfixit | Nerdy Nagetier ? | 谢宇 |
Coldcawfee ? | Sbersier ? ? ? | Meldoner ? ? | mmodousher ? | Alondan ? | Likkkez ? | Klebebandspiele ? |
Xianglong er ? | 75aosu ? | Tonyco82 ? | yxlllc ? | überdauert ? | Escoolioinglesias ? ? ? | Schwarz ? |
Mgs. M. Thoyib Antarnusa ? | Exosfeer ? | Guranon ? ? | Alexander Koumis | Acekagami ? | Highupech ? | Skorpi |
Maximxls | Star3lord ? | Forkoz ? | Zerui Chen ? | Roee Shenberg ? ? | Justas ? | Onako2 |
4ll0w3v1l | J5Y0V6B ? Euen | Marcellocirelli ? | Priyanshu Patel | Anna Gorshunova ? |
Dieses Projekt folgt der All-Contributors-Spezifikation. Beiträge jeglicher Art willkommen!
#206 ↩
#469 ↩
https://ytpmv.info/how-to-use-uvr/ ↩
Wenn Sie einen Empfehlungscode registrieren und dann eine Zahlungsmethode hinzufügen, können Sie bei der monatlichen Abrechnung Ihres ersten Monats etwa 5 US -Dollar sparen. Beachten Sie, dass beide Empfehlungsbelohnungen Papierspace -Credits und nicht Bargeld sind. Es war eine schwierige Entscheidung, aber eingefügt, da das Debuggen und Training des ersten Modells eine große Menge an Rechenleistung erfordert und der Entwickler ein Student ist. ↩
#456 ↩