so vits svc fork Download - so vits svc fork Source Code Download

so vits svc fork

Anderer Quellcode

v4.2.26

Herunterladen

Softvc vits singende Sprachkonvertierung Fork

简体中文

Eine Gabel von so-vits-svc mit Realzeitunterstützung und stark verbesserter Schnittstelle . Basierend auf Branch 4.0 (v1) (oder 4.1 ) und die Modelle sind kompatibel. 4.1 Modelle werden nicht unterstützt. Andere Modelle werden ebenfalls nicht unterstützt.

Nicht mehr gepflegt

Gründe

Innerhalb eines Jahres hat sich die Technologie enorm entwickelt und es gibt viele bessere Alternativen
Ich hoffte, ein modulareres, leicht zu installierendes Repository zu erstellen, hatte aber nicht die Fähigkeiten, Zeit und Geld dafür
Pysimpelgui ist nicht mehr LGPL
Die Verwendung von Typer wird beliebter als direkt mit dem Click

Alternativen

Achten Sie immer auf die wenigen Influencer, die über überrascht über jedes neue Projekt/jede neue Technologie überrascht sind. Sie müssen jeden Social-Networking-Beitrag mit Semi-Doubt nehmen.

Der im Jahr 2023 auftretende Sprachwechsler -Boom ist zu Ende gegangen, und viele Entwickler, nicht nur die in diesem Repository, sind seit einiger Zeit nicht sehr aktiv.

Es gibt zu viele Alternativen, um hier zu listen, aber:

RVC -Familie: Iahispano/Applio (MIT), Fumiamas RVC (AGPL) und Original RVC (MIT)
VCClient (MIT usw.) ist sehr aktiv gepflegt und bietet webbasierte GUI für die Echtzeitkonvertierung.
Fischdiffusion versuchte, ziemlich modular zu sein, aber nicht ganz aktiv aufrechterhalten.
YXlllc/DDSP -SVC - Gelegentlich werden neue Veröffentlichungen ausgestellt. yxlllc/Reflow-vae-SVC
Coqui-AI/TTS war für TTS, war aber teilweise modular. Leider ist es jedoch nicht mehr beibehalten.

An anderer Stelle haben sich mehrere Start-ups verbessert und Voice Changers vermarktet (wahrscheinlich aus Gewinn).

Die Aktualisierungen dieses Repositorys sind seit dem Frühjahr 2023 auf Wartung beschränkt. Es ist schwierig, die Liste der Alternativen hier einzugrenzen. Wenn Sie nach einem Sprachwechsler mit einer noch besseren Leistung suchen (insbesondere in Bezug auf die Latenz als Qualität), sollten Sie andere Projekte ausprobieren. > ~~Dieses Projekt ist jedoch möglicherweise ideal für diejenigen, die für den Moment die Sprachumwandlung ausprobieren möchten (da es einfach zu installieren ist).~~

Funktionen, die im Original -Repo nicht verfügbar sind

Realtime Voice Conversion (verstärkt in v1.1.0)
Teilweise integriert QuickVC
Behobener Missbrauch von ContentVec im ursprünglichen Repository. ¹
Genauere Tonhöhenschätzung mit CREPE .
GUI und einheitliche CLI verfügbar
~ 2x schnelleres Training
Bereit zu verwenden, indem Sie mit pip installiert werden.
Laden Sie automatisch vorgefertigte Modelle herunter. Keine Notwendigkeit, fairseq zu installieren.
Code vollständig mit Schwarz, ISORT, Autoflake usw. formatiert.

Installation

Option 1. Ein Klick einfach Installation

Diese Fledermausdatei führt automatisch die unten beschriebenen Schritte aus.

Option 2. Manuelle Installation (mit PIPX, experimentell)

1. Installieren von PIPX

Windows (Entwicklungsversion erforderlich aufgrund von PYPA/PIPX#940):

py -3 -m pip install --user git+https://github.com/pypa/pipx.git
py -3 -m pipx ensurepath

Linux/macos:

python -m pip install --user pipx
python -m pipx ensurepath

2. Installieren von SO-Vits-SVC-Raben

pipx install so-vits-svc-fork --python=3.11
pipx inject so-vits-svc-fork torch torchaudio --pip-args= " --upgrade " --index-url=https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121

Option 3. Manuelle Installation

Erstellen einer virtuellen Umgebung

Fenster:

py -3.11 -m venv venv
venv S cripts a ctivate

Linux/macos:

python3.11 -m venv venv
source venv/bin/activate

Anakonda:

conda create -n so-vits-svc-fork python=3.11 pip
conda activate so-vits-svc-fork

Die Installation ohne Erstellung einer virtuellen Umgebung kann zu einem PermissionError führen, wenn Python in Programmdateien usw. installiert ist.

Installieren Sie dies über PIP (oder Ihren bevorzugten Paketmanager, der PIP verwendet):

python -m pip install -U pip setuptools wheel
pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121
pip install -U so-vits-svc-fork

Notizen

Wenn keine GPU verfügbar ist oder macOS verwendet, entfernen Sie einfach pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 . MPS wird wahrscheinlich unterstützt.
Wenn Sie eine AMD-GPU unter Linux verwenden, ersetzen Sie --index-url https://download.pytorch.org/whl/cu121 mit --index-url https://download.pytorch.org/whl/nightly/rocm5.7 . AMD -GPUs werden unter Windows nicht unterstützt (#120).

Aktualisieren

Bitte aktualisieren Sie dieses Paket regelmäßig, um die neuesten Funktionen und Fehlerbehebungen zu erhalten.

pip install -U so-vits-svc-fork
# pipx upgrade so-vits-svc-fork

Verwendung

Schlussfolgerung

GUI

GUI startet mit dem folgenden Befehl:

svcg

Cli

Echtzeit (aus Mikrofon)

svc vc

Datei

svc infer source.wav

Vorbereitete Modelle sind auf Umarmung von Gesicht oder Civitai erhältlich.

Notizen

Wenn Sie WSL verwenden, beachten Sie bitte, dass WSL zusätzliche Setup benötigt, um Audio zu verarbeiten, und die GUI funktioniert nicht, ohne ein Audio -Gerät zu finden.
In Echtzeit-Inferenz reagiert das Hubert-Modell auch auf die Eingänge auf die Eingänge. Erwägen Sie in diesem Fall Echtzeit -Anwendungen zur Reduzierung von Rauschen wie RTX Voice.
Andere Modelle als für 4.0v1 oder dieses Repository werden nicht unterstützt.
Die GPU -Inferenz erfordert mindestens 4 GB VRAM. Wenn es nicht funktioniert, versuchen Sie es mit der CPU -Inferenz, da es schnell genug ist. ²

Ausbildung

Vor dem Training

Wenn Ihr Datensatz BGM hat, entfernen Sie die BGM mithilfe von Software wie Ultimate Vocal Remover. 3_HP-Vocal-UVR.pth oder UVR-MDX-NET Main wird empfohlen. ³
Wenn Ihr Datensatz eine lange Audio-Datei mit einem einzelnen Sprecher ist, verwenden Sie den Datensatz mit svc pre-split in mehrere Dateien (mit librosa ) in mehrere Dateien.
Wenn Ihr Datensatz eine lange Audio-Datei mit mehreren Sprechern ist, verwenden Sie svc pre-sd um den Datensatz in mehrere Dateien (mit pyannote.audio ) in mehrere Dateien aufzuteilen. Eine weitere manuelle Klassifizierung kann aufgrund von Genauigkeitsproblemen erforderlich sein. Wenn die Sprecher mit einer Vielzahl von Sprachstilen sprechen, setzen Sie-MIN-Lautsprecher größer als die tatsächliche Anzahl von Sprechern. Aufgrund von ungelösten Abhängigkeiten installieren Sie bitte pyannote.audio manuell: pip install pyannote-audio .
Um Audiodateien manuell zu klassifizieren, ist svc pre-classify verfügbar. Auf und ab Pfeiltasten können verwendet werden, um die Wiedergabegeschwindigkeit zu ändern.

Wolke

⁴

Wenn Sie keinen Zugriff auf eine GPU mit mehr als 10 GB VRAM haben, wird der kostenlose Plan von Google Colab für leichte Benutzer empfohlen, und der Pro/Wachstumsplan von Papierspace wird für schwere Benutzer empfohlen. Wenn Sie umgekehrt auf eine High-End-GPU zugreifen, wird die Verwendung von Cloud-Diensten nicht empfohlen.

Lokal

Platzieren Sie Ihren Datensatz wie dataset_raw/{speaker_id}/**/{wav_file}.{any_format} (Unterordner und Nicht-ASCII-Dateinamen sind akzeptabel) und führen Sie aus:

svc pre-resample
svc pre-config
svc pre-hubert
svc train -t

Notizen

Die Dataset -Audiodauer pro Datei sollte <~ 10s betragen.
Brauche mindestens 4 GB VRAM. ⁵
Es wird empfohlen, die batch_size so weit wie möglich in config.json vor dem train so weit wie möglich zu erhöhen, um die VRAM -Kapazität zu entsprechen. Einstellen batch_size in auto-{init_batch_size}-{max_n_trials} (oder einfach auto ) erhöht automatisch batch_size , bis der OOM-Fehler auftritt, aber in einigen Fällen möglicherweise nicht nützlich ist.
Um CREPE zu verwenden, ersetzen Sie svc pre-hubert durch svc pre-hubert -fm crepe .
Um ContentVec korrekt zu verwenden, ersetzen Sie svc pre-config durch -t so-vits-svc-4.0v1 . Das Training kann etwas länger dauern, da einige Gewichte zurückgesetzt werden, da die anfänglichen Erstgeneratorgewichte wiederverwendet werden.
Um MS-iSTFT Decoder zu verwenden, ersetzen Sie svc pre-config durch svc pre-config -t quickvc .
Die Entfernung der Stille und die Normalisierung der Lautstärke werden automatisch durchgeführt (wie im vorgelagerten Repo) und nicht erforderlich.
Wenn Sie in einem großen, urheberrechtlich geschützten Datensatz trainiert haben, sollten Sie ihn als ursprüngliches Modell freigeben.
Für weitere Details (z. B. Parameter usw.) können Sie das Wiki oder die Diskussionen sehen.

Weitere Hilfe

Weitere Details führen Sie svc -h oder svc <subcommand> -h aus.

 > svc -h
Usage: svc [OPTIONS] COMMAND [ARGS]...

  so-vits-svc allows any folder structure for training data.
  However, the following folder structure is recommended.
      When training: dataset_raw/{speaker_name}/ ** /{wav_name}.{any_format}
      When inference: configs/44k/config.json, logs/44k/G_XXXX.pth
  If the folder structure is followed, you DO NOT NEED TO SPECIFY model path, config path, etc.
  (The latest model will be automatically loaded.)
  To train a model, run pre-resample, pre-config, pre-hubert, train.
  To infer a model, run infer.

Options:
  -h, --help  Show this message and exit.

Commands:
  clean          Clean up files, only useful if you are using the default file structure
  infer          Inference
  onnx           Export model to onnx (currently not working)
  pre-classify   Classify multiple audio files into multiple files
  pre-config     Preprocessing part 2: config
  pre-hubert     Preprocessing part 3: hubert If the HuBERT model is not found, it will be...
  pre-resample   Preprocessing part 1: resample
  pre-sd         Speech diarization using pyannote.audio
  pre-split      Split audio files into multiple files
  train          Train model If D_0.pth or G_0.pth not found, automatically download from hub.
  train-cluster  Train k-means clustering
  vc             Realtime inference from microphone

Externe Links

Video -Tutorial

Mitwirkende

Vielen Dank an diese wunderbaren Menschen (Emoji -Schlüssel):

_34J ? ? ? ? Euen ✅?	_{GarrettConway} ? ?	_Blueamulet ? ?	_{ThrowawayAccount01} ?	_緋 ?	_Lordmau5 ? ? ? ?	_DL909 ?
_Zufrieden256 ?	_{Pierluigi Zagaria} ?	_{Ruckusmattster} ?	_Desuka-Art ?	_Heyfixit	_{Nerdy Nagetier} ?	_谢宇
_Coldcawfee ?	_Sbersier ? ? ?	_Meldoner ? ?	_mmodousher ?	_Alondan ?	_Likkkez ?	_{Klebebandspiele} ?
_{Xianglong er} ?	_75aosu ?	_Tonyco82 ?	_yxlllc ?	_überdauert ?	_{Escoolioinglesias} ? ? ?	_Schwarz ?
_{Mgs. M. Thoyib Antarnusa} ?	_Exosfeer ?	_Guranon ? ?	_{Alexander Koumis}	_Acekagami ?	_Highupech ?	_Skorpi
_Maximxls	_Star3lord ?	_Forkoz ?	_{Zerui Chen} ?	_{Roee Shenberg} ? ?	_Justas ?	_Onako2
_4ll0w3v1l	_J5Y0V6B ? Euen	_{Marcellocirelli} ?	_{Priyanshu Patel}	_{Anna Gorshunova} ?

Dieses Projekt folgt der All-Contributors-Spezifikation. Beiträge jeglicher Art willkommen!

#206 ↩
#469 ↩
https://ytpmv.info/how-to-use-uvr/ ↩
Wenn Sie einen Empfehlungscode registrieren und dann eine Zahlungsmethode hinzufügen, können Sie bei der monatlichen Abrechnung Ihres ersten Monats etwa 5 US -Dollar sparen. Beachten Sie, dass beide Empfehlungsbelohnungen Papierspace -Credits und nicht Bargeld sind. Es war eine schwierige Entscheidung, aber eingefügt, da das Debuggen und Training des ersten Modells eine große Menge an Rechenleistung erfordert und der Entwickler ein Student ist. ↩
#456 ↩

Expandieren

Zusätzliche Informationen