so vits svc fork Download - so vits svc fork Source Code Download

so vits svc fork

Kode sumber lainnya

v4.2.26

Unduh

SoftVC Vits Singing Voice Conversion Fork

简体中文

Garpu so-vits-svc dengan dukungan realtime dan antarmuka yang sangat ditingkatkan . Berdasarkan Cabang 4.0 (V1) (OR 4.1 ) dan modelnya kompatibel. 4.1 Model tidak didukung. Model lain juga tidak didukung.

Tidak lagi dipertahankan

Alasan

Dalam setahun, teknologi ini telah berkembang pesat dan ada banyak alternatif yang lebih baik
Berharap untuk membuat repositori yang lebih modular, mudah diinstal, tetapi tidak memiliki keterampilan, waktu, uang untuk melakukannya
PysimpleGui tidak lagi LGPL
Menggunakan Typer semakin populer daripada secara langsung menggunakan klik

Alternatif

Selalu berhati -hati terhadap sedikit influencer yang cukup terkejut dengan proyek/teknologi baru. Anda perlu mengambil setiap posting jejaring sosial dengan semi-keraguan.

Ledakan pengubah suara yang terjadi pada tahun 2023 telah berakhir, dan banyak pengembang, bukan hanya mereka yang ada di repositori ini, tidak terlalu aktif untuk sementara waktu.

Ada terlalu banyak alternatif untuk dicantumkan di sini tetapi:

Keluarga RVC: Iahispano/Applio (MIT), RVC Fumiama (AGPL) dan RVC asli (MIT)
VCCLIENT (MIT dll.) Cukup aktif dipelihara dan menawarkan GUI berbasis web untuk konversi waktu nyata.
Difusi ikan berusaha menjadi cukup modular tetapi tidak cukup aktif dipelihara.
YXLLLC/DDSP -SVC - Rilis baru dikeluarkan sesekali. yxlllc/reflow-vae-svc
Coqui-Ai/TTS adalah untuk TTS tetapi sebagian modular. Namun, itu tidak dipertahankan lagi, sayangnya.

Di tempat lain, beberapa start-up telah meningkatkan dan memasarkan pengubah suara (mungkin untuk keuntungan).

Pembaruan repositori ini telah terbatas pada pemeliharaan sejak musim semi 2023. Sulit untuk mempersempit daftar alternatif di sini, tetapi harap pertimbangkan untuk mencoba proyek lain jika Anda mencari pengubah suara dengan kinerja yang lebih baik (terutama dalam hal latensi selain kualitas). > ~~Namun, proyek ini mungkin ideal bagi mereka yang ingin mencoba konversi suara untuk saat ini (karena mudah dipasang).~~

Fitur tidak tersedia dalam repo asli

Konversi suara realtime (ditingkatkan dalam v1.1.0)
Sebagian mengintegrasikan QuickVC
Memperbaiki penyalahgunaan ContentVec di repositori asli. ¹
Estimasi pitch yang lebih akurat menggunakan CREPE .
GUI dan CLI terpadu tersedia
~ 2x pelatihan yang lebih cepat
Siap digunakan hanya dengan menginstal dengan pip .
Unduh model pretrained secara otomatis. Tidak perlu menginstal fairseq .
Kode yang diformat sepenuhnya dengan hitam, isort, autoflake dll.

Instalasi

Opsi 1. Satu klik instalasi mudah

File kelelawar ini akan secara otomatis melakukan langkah -langkah yang dijelaskan di bawah ini.

Opsi 2. Instalasi Manual (Menggunakan PIPX, Eksperimental)

1. Memasang PIPX

Windows (versi pengembangan diperlukan karena PYPA/PIPX#940):

py -3 -m pip install --user git+https://github.com/pypa/pipx.git
py -3 -m pipx ensurepath

Linux/MacOS:

python -m pip install --user pipx
python -m pipx ensurepath

2. Memasang So-Vits-SVC-Fork

pipx install so-vits-svc-fork --python=3.11
pipx inject so-vits-svc-fork torch torchaudio --pip-args= " --upgrade " --index-url=https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121

Opsi 3. Instalasi Manual

Menciptakan lingkungan virtual

Windows:

py -3.11 -m venv venv
venv S cripts a ctivate

Linux/MacOS:

python3.11 -m venv venv
source venv/bin/activate

Anaconda:

conda create -n so-vits-svc-fork python=3.11 pip
conda activate so-vits-svc-fork

Menginstal tanpa membuat lingkungan virtual dapat menyebabkan PermissionError jika Python diinstal dalam file program, dll.

Instal ini melalui PIP (atau manajer paket favorit Anda yang menggunakan PIP):

python -m pip install -U pip setuptools wheel
pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 # https://download.pytorch.org/whl/nightly/cu121
pip install -U so-vits-svc-fork

Catatan

Jika tidak ada GPU yang tersedia atau menggunakan MacOS, cukup lepaskan pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu121 . MPS mungkin didukung.
Jika Anda menggunakan AMD GPU di Linux, ganti --index-url https://download.pytorch.org/whl/cu121 dengan --index-url https://download.pytorch.org/whl/nightly/rocm5.7 . AMD GPU tidak didukung di Windows (#120).

Memperbarui

Harap perbarui paket ini secara teratur untuk mendapatkan fitur terbaru dan perbaikan bug.

pip install -U so-vits-svc-fork
# pipx upgrade so-vits-svc-fork

Penggunaan

Kesimpulan

GUI

GUI diluncurkan dengan perintah berikut:

svcg

Cli

Realtime (dari mikrofon)

svc vc

Mengajukan

svc infer source.wav

Model pretrained tersedia untuk memeluk wajah atau civitai.

Catatan

Jika menggunakan WSL, harap dicatat bahwa WSL memerlukan pengaturan tambahan untuk menangani audio dan GUI tidak akan berfungsi tanpa menemukan perangkat audio.
Dalam inferensi real-time, jika ada noise pada input, model Hubert akan bereaksi terhadap itu juga. Pertimbangkan untuk menggunakan aplikasi pengurangan kebisingan realtime seperti suara RTX dalam kasus ini.
Model selain untuk 4.0V1 atau repositori ini tidak didukung.
Inferensi GPU membutuhkan setidaknya 4 GB VRAM. Jika tidak berhasil, cobalah inferensi CPU karena cukup cepat. ²

Pelatihan

Sebelum pelatihan

Jika dataset Anda memiliki BGM, silakan hapus BGM menggunakan perangkat lunak seperti Ultimate Vocal Remover. 3_HP-Vocal-UVR.pth atau UVR-MDX-NET Main direkomendasikan. ³
Jika dataset Anda adalah file audio panjang dengan satu speaker, gunakan svc pre-split untuk membagi dataset menjadi beberapa file (menggunakan librosa ).
Jika dataset Anda adalah file audio panjang dengan beberapa speaker, gunakan svc pre-sd untuk membagi dataset menjadi beberapa file (menggunakan pyannote.audio ). Klasifikasi manual lebih lanjut mungkin diperlukan karena masalah akurasi. Jika speaker berbicara dengan berbagai gaya bicara, aturnya-penutur yang lebih besar dari jumlah speaker yang sebenarnya. Karena dependensi yang belum terselesaikan, silakan instal pyannote.audio secara manual: pip install pyannote-audio .
Untuk mengklasifikasikan file audio secara manual, svc pre-classify tersedia. Kunci panah atas dan bawah dapat digunakan untuk mengubah kecepatan pemutaran.

Awan

⁴

Jika Anda tidak memiliki akses ke GPU dengan lebih dari 10 GB VRAM, rencana gratis Google Colab direkomendasikan untuk pengguna ringan dan rencana paperspace pro/pertumbuhan direkomendasikan untuk pengguna berat. Sebaliknya, jika Anda memiliki akses ke GPU kelas atas, penggunaan layanan cloud tidak disarankan.

Lokal

Tempatkan dataset Anda seperti dataset_raw/{speaker_id}/**/{wav_file}.{any_format} (subfolder dan nama file non-ASCII dapat diterima) dan jalankan:

svc pre-resample
svc pre-config
svc pre-hubert
svc train -t

Catatan

Durasi audio dataset per file harus <~ 10s.
Membutuhkan setidaknya 4GB VRAM. ⁵
Dianjurkan untuk meningkatkan batch_size sebanyak mungkin di config.json sebelum perintah train agar sesuai dengan kapasitas VRAM. Mengatur batch_size ke auto-{init_batch_size}-{max_n_trials} (atau hanya auto ) akan secara otomatis meningkatkan batch_size sampai kesalahan OOM terjadi, tetapi mungkin tidak berguna dalam beberapa kasus.
Untuk menggunakan CREPE , ganti svc pre-hubert dengan svc pre-hubert -fm crepe .
Untuk menggunakan ContentVec dengan benar, ganti svc pre-config dengan -t so-vits-svc-4.0v1 . Pelatihan mungkin memakan waktu sedikit lebih lama karena beberapa bobot diatur ulang karena menggunakan kembali bobot generator awal yang lama.
Untuk menggunakan MS-iSTFT Decoder , ganti svc pre-config dengan svc pre-config -t quickvc .
Penghapusan keheningan dan normalisasi volume dilakukan secara otomatis (seperti pada repo hulu) dan tidak diperlukan.
Jika Anda telah melatih dataset besar, bebas hak cipta, pertimbangkan untuk melepaskannya sebagai model awal.
Untuk perincian lebih lanjut (misalnya parameter, dll.), Anda dapat melihat wiki atau diskusi.

Bantuan lebih lanjut

Untuk detail lebih lanjut, jalankan svc -h atau svc <subcommand> -h .

 > svc -h
Usage: svc [OPTIONS] COMMAND [ARGS]...

  so-vits-svc allows any folder structure for training data.
  However, the following folder structure is recommended.
      When training: dataset_raw/{speaker_name}/ ** /{wav_name}.{any_format}
      When inference: configs/44k/config.json, logs/44k/G_XXXX.pth
  If the folder structure is followed, you DO NOT NEED TO SPECIFY model path, config path, etc.
  (The latest model will be automatically loaded.)
  To train a model, run pre-resample, pre-config, pre-hubert, train.
  To infer a model, run infer.

Options:
  -h, --help  Show this message and exit.

Commands:
  clean          Clean up files, only useful if you are using the default file structure
  infer          Inference
  onnx           Export model to onnx (currently not working)
  pre-classify   Classify multiple audio files into multiple files
  pre-config     Preprocessing part 2: config
  pre-hubert     Preprocessing part 3: hubert If the HuBERT model is not found, it will be...
  pre-resample   Preprocessing part 1: resample
  pre-sd         Speech diarization using pyannote.audio
  pre-split      Split audio files into multiple files
  train          Train model If D_0.pth or G_0.pth not found, automatically download from hub.
  train-cluster  Train k-means clustering
  vc             Realtime inference from microphone

Tautan eksternal

Tutorial video

Kontributor

Terima kasih kepada orang -orang yang luar biasa ini (Kunci Emoji):

_34J ? ? ? ? ️ ✅?	_{Garrettconway} ? ?	_Blueamulet ? ?	_{ThrowawawawawawawoCount01} ?	_緋 ?	_Lordmau5 ? ? ? ?	_DL909 ?
_Kepuasan256 ?	_{Pierluigi Zagaria} ?	_{Ruckusmattster} ?	_Desuka-art ?	_heyfixit	_{Nerdy Rodent} ?	_谢宇
_Coldcawfee ?	_Sbersier ? ? ?	_Meldoner ? ?	_mmodeusher ?	_Alondan ?	_Likkkez ?	_{Permainan lakban} ?
_{Xianglong dia} ?	_75aosu ?	_Tonyco82 ?	_yxlllc ?	_OUTHIPPED ?	_{Escoolioinglesias} ? ? ?	_Blacksingh ?
_{MGS. M. Thoyib Antarnusa} ?	_Exosfeer ?	_Guranon ? ?	_{Alexander Koumis}	_Acekagami ?	_Highupech ?	_Scorpi
_MAXIMXLS	_Star3lord ?	_Forkoz ?	_{Zerui Chen} ?	_{Roee Shenberg} ? ?	_Justas ?	_Onako2
_4ll0w3v1l	_j5y0v6b ? ️	_{Marcellocirelli} ?	_{Priyanshu Patel}	_{Anna Gorshunova} ?

Proyek ini mengikuti spesifikasi semua-kontributor. Kontribusi apa pun yang baik!

#206 ↩
#469 ↩
https://ytpmv.info/how-to-use-uvr/ ↩
Jika Anda mendaftarkan kode rujukan dan kemudian menambahkan metode pembayaran, Anda dapat menghemat sekitar $ 5 pada penagihan bulanan bulan pertama Anda. Perhatikan bahwa kedua penghargaan rujukan adalah kredit paperspace dan bukan uang tunai. Itu adalah keputusan yang sulit tetapi dimasukkan karena men -debug dan pelatihan model awal membutuhkan sejumlah besar daya komputasi dan pengembang adalah seorang siswa. ↩
#456 ↩

Memperluas

Informasi Tambahan