so vits svc forkダウンロード - so vits svc forkソースコードダウンロード

so vits svc fork

その他のソースコード

v4.2.26

ダウンロード

SoftVCは、音声変換フォークを歌うvitsをvitsします

简体中文

リアルタイムサポートとインターフェイスが大幅に改善されたso-vits-svcのフォーク。ブランチ4.0 （V1）（または4.1 ）に基づいており、モデルは互換性があります。 4.1モデルはサポートされていません。他のモデルもサポートされていません。

もはや維持されません

理由

1年以内に、この技術は非常に進化しており、より多くのより良い選択肢があります
よりモジュール式の、インストールしやすいリポジトリを作成したいと思っていましたが、スキル、時間、お金を持っていませんでした
pysimpleguiはもはやLGPLではありません
Typerの使用は、クリックを直接使用するよりも人気が高まっています

代替案

常に新しいプロジェクト/テクノロジーに非常に驚いている非常に少数のインフルエンサーに注意してください。すべてのソーシャルネットワーキングポストを半疑いで取る必要があります。

2023年に発生した音声チェンジャーブームは終わりました。このリポジトリだけでなく、多くの開発者はしばらくの間、あまり活発ではありませんでした。

ここにリストする代替品が多すぎますが、

RVCファミリー：Iahispano/Applio（MIT）、FumiamaのRVC（AGPL）、Original RVC（MIT）
VcClient（MITなど）は非常に積極的に維持されており、リアルタイム変換のためにWebベースのGUIを提供します。
魚の拡散は非常にモジュール式になろうとしましたが、積極的に維持されていませんでした。
YXLLLLC/DDSP -SVC-新しいリリースが時々発行されます。 yxlllc/refow-vae-svc
Coqui-ai/TTSはTTS向けでしたが、部分的にモジュール式でした。しかし、残念ながら、それはもう維持されていません。

他の場所では、いくつかのスタートアップが改善および販売された音声チェンジャー（おそらく利益のため）です。

このリポジトリの更新は、2023年春以来、メンテナンスに限定されています。ここでは、代替案のリストを絞り込むことは困難ですが、パフォーマンスがさらに向上している音声チェンジャーを探している場合は、他のプロジェクトを試してみてください（特に品質以外のレイテンシに関して）。 >~~ただし、このプロジェクトは、今のところ音声変換を試してみたい人に最適かもしれません（インストールが簡単だから）。~~

元のレポでは使用できません

リアルタイム音声変換（v1.1.0で拡張）
QuickVC部分的に統合します
元のリポジトリのContentVecの誤用を修正しました。 ¹
CREPEを使用したより正確なピッチ推定。
GUIと統合CLIが利用可能です
〜2倍高速なトレーニング
pipでインストールするだけで使用できます。
前提条件のモデルを自動的にダウンロードします。 fairseqをインストールする必要はありません。
コードは、黒、ISORT、オートフレイクなどで完全にフォーマットされています。

インストール

オプション1。ワンクリックイージーインストール

このバットファイルは、以下で説明する手順を自動的に実行します。

オプション2。手動インストール（PIPXを使用、実験）

1。PIPXのインストール

Windows（PYPA/PIPX＃940が原因で開発バージョンが必要）：

py -3 -m pip install --user git+https://github.com/pypa/pipx.git
py -3 -m pipx ensurepath

Linux/macos：

python -m pip install --user pipx
python -m pipx ensurepath

2。so-vits-svc-forkのインストール

pipx install so-vits-svc-fork --python=3.11
pipx inject so-vits-svc-fork torch torchaudio --pip-args= " --upgrade " --index-url=https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121

オプション3。手動インストール

仮想環境の作成

Windows：

py -3.11 -m venv venv
venv S cripts a ctivate

Linux/macos：

python3.11 -m venv venv
source venv/bin/activate

アナコンダ：

conda create -n so-vits-svc-fork python=3.11 pip
conda activate so-vits-svc-fork

Pythonがプログラムファイルなどにインストールされている場合、仮想環境を作成せずにインストールすると、 PermissionErrorが発生する場合があります。

これをPIP（またはPIPを使用するお気に入りのパッケージマネージャー）を介してインストールします。

python -m pip install -U pip setuptools wheel
pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121
pip install -U so-vits-svc-fork

メモ

GPUが利用できない場合、またはMACOを使用している場合は、 pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121を削除するだけです。議員はおそらくサポートされています。
LinuxでAMD GPUを使用している場合は、 --index-url https://download.pytorch.org/whl/nightly/rocm5.7 --index-url https://download.pytorch.org/whl/cu121を置き換えます。 AMD GPUはWindowsではサポートされていません（＃120）。

アップデート

このパッケージを定期的に更新して、最新の機能とバグ修正を取得してください。

pip install -U so-vits-svc-fork
# pipx upgrade so-vits-svc-fork

使用法

推論

GUI

GUIは次のコマンドで起動します。

svcg

cli

リアルタイム（マイクから）

svc vc

ファイル

svc infer source.wav

前提条件のモデルは、顔やCivitaiを抱きしめて利用できます。

メモ

WSLを使用している場合は、WSLにはオーディオを処理するために追加のセットアップが必要であり、オーディオデバイスを見つけなくてもGUIは機能しません。
リアルタイムの推論では、入力にノイズがある場合、ヒューバートモデルもそれらに反応します。この場合、RTX Voiceなどのリアルタイムノイズリダクションアプリケーションの使用を検討してください。
4.0V1以外のモデルまたはこのリポジトリはサポートされていません。
GPU推論には、少なくとも4 GBのVRAMが必要です。うまくいかない場合は、CPU推論を十分に速いので試してください。 ²

トレーニング

トレーニング前

データセットにBGMがある場合は、Ultimate Vocal Removerなどのソフトウェアを使用してBGMを削除してください。 3_HP-Vocal-UVR.pthまたはUVR-MDX-NET Mainをお勧めします。 ³
データセットが単一のスピーカーを備えた長いオーディオファイルである場合、 svc pre-split使用してデータセットを複数のファイルに分割します（ librosaを使用）。
データセットが複数のスピーカーを備えた長いオーディオファイルである場合、 svc pre-sdを使用してデータセットを複数のファイルに分割します（ pyannote.audioを使用）。精度の問題により、さらなる手動分類が必要になる場合があります。スピーカーがさまざまなスピーチスタイルで話す場合は、スピーカーの実際の数よりも大きいマインスピーカーを設定します。未解決の依存関係が原因で、 pyannote.audioを手動でインストールしてください： pip install pyannote-audio 。
オーディオファイルを手動で分類するために、 svc pre-classify利用可能です。上下の矢印キーを使用して、再生速度を変更できます。

雲

⁴

10 GBを超えるVRAMを持つGPUにアクセスできない場合、Google Colabの無料プランが軽ユーザーに推奨され、論文スペースのプロ/成長計画はヘビーユーザーに推奨されます。逆に、ハイエンドGPUにアクセスできる場合、クラウドサービスの使用は推奨されません。

地元

データセットのようにデータセットをdataset_raw/{speaker_id}/**/{wav_file}.{any_format} （サブフォルダーと非asciiファイル名は許容できます）を配置し、実行します。

svc pre-resample
svc pre-config
svc pre-hubert
svc train -t

メモ

ファイルごとのデータセットオーディオ持続時間は<〜10でなければなりません。
少なくとも4GBのVRAMが必要です。 ⁵
VRAM容量に一致するように、 trainコマンドの前にconfig.jsonでできるだけbatch_sizeを増やすことをお勧めします。 batch_size auto-{init_batch_size}-{max_n_trials} （または単にauto ）に設定すると、oomエラーが発生するまでbatch_sizeが自動的に増加しますが、場合によっては役に立たない場合があります。
CREPEを使用するには、 svc pre-hubert svc pre-hubert -fm crepeに置き換えます。
ContentVec正しく使用するには、 svc pre-config -t so-vits-svc-4.0v1に置き換えます。レガシーの初期ジェネレーターの重みを再利用するために、一部の重量がリセットされるため、トレーニングには少し時間がかかる場合があります。
MS-iSTFT Decoder使用するには、 svc pre-config svc pre-config -t quickvcに置き換えます。
沈黙の除去と体積の正規化は自動的に実行され（上流のリポジトリのように）、必要ありません。
大規模な著作権のないデータセットでトレーニングを行っている場合は、初期モデルとしてリリースすることを検討してください。
詳細（パラメーターなど）については、Wikiまたはディスカッションを確認できます。

さらなる助け

詳細については、 svc -hまたはsvc <subcommand> -hを実行します。

 > svc -h
Usage: svc [OPTIONS] COMMAND [ARGS]...

  so-vits-svc allows any folder structure for training data.
  However, the following folder structure is recommended.
      When training: dataset_raw/{speaker_name}/ ** /{wav_name}.{any_format}
      When inference: configs/44k/config.json, logs/44k/G_XXXX.pth
  If the folder structure is followed, you DO NOT NEED TO SPECIFY model path, config path, etc.
  (The latest model will be automatically loaded.)
  To train a model, run pre-resample, pre-config, pre-hubert, train.
  To infer a model, run infer.

Options:
  -h, --help  Show this message and exit.

Commands:
  clean          Clean up files, only useful if you are using the default file structure
  infer          Inference
  onnx           Export model to onnx (currently not working)
  pre-classify   Classify multiple audio files into multiple files
  pre-config     Preprocessing part 2: config
  pre-hubert     Preprocessing part 3: hubert If the HuBERT model is not found, it will be...
  pre-resample   Preprocessing part 1: resample
  pre-sd         Speech diarization using pyannote.audio
  pre-split      Split audio files into multiple files
  train          Train model If D_0.pth or G_0.pth not found, automatically download from hub.
  train-cluster  Train k-means clustering
  vc             Realtime inference from microphone

外部リンク

ビデオチュートリアル

貢献者

これらの素晴らしい人々に感謝します（絵文字キー）：

_34J ？？？？ショ和✅？？	_{Garrettconway} ？？	_Blueamulet ？？	_{throwayaccount01} ？	_緋？	_lordmau5 ？？？？	_DL909 ？
_満足256 ？	_{Pierluigi Zagaria} ？	_{ラッカマットスター} ？	_Desuka-Art ？	_heyfixit	_{オタクげっ歯類} ？	_谢宇
_coldcawfee ？	_{サバイザー} ？？？	_{メルドナー} ？？	_mmodeusher ？	_{アロンダン} ？	_likkkez ？	_{ダクトテープゲーム} ？
_Xianglong彼？	_75aosu ？	_Tonyco82 ？	_yxlllc ？	_伸びた？	_{Escoolioinglesias} ？？？	_{ブラックシン} ？
_{MGS。 M. Thoyib Antarnusa} ？	_exosfeer ？	_グラノン？？	_{アレクサンダー・クーミス}	_{アセカガミ} ？	_HighUpech ？	_Scorpi
_maximxls	_Star3lord ？	_{フォーコズ} ？	_{Zerui Chen} ？	_{Roee Shenberg} ？？	_ユスタス？	_Onako2
_4ll0w3v1l	_J5y0v6b ？§	_{Marcellocirelli} ？	_{Priyanshu Patel}	_{アンナ・ゴルソノバ} ？

このプロジェクトは、全委員会の仕様に従います。あらゆる種類の貢献を歓迎します！

＃206↩
＃469↩
https://ytpmv.info/how-to-use-uvr/↩
紹介コードを登録してから支払い方法を追加する場合、最初の月の月次請求で約5ドルを節約できます。両方の紹介報酬は、現金ではなく論文スペースのクレジットであることに注意してください。難しい決定でしたが、最初のモデルをデバッグしてトレーニングするには大量のコンピューティングパワーが必要であり、開発者は学生であるため挿入されました。 ↩
＃456↩

拡大する

追加情報