so vits svc Download - so vits svc Sumber Code Unduh

so vits svc

Kode sumber lainnya

1.0.0

Unduh

SoftVC Vits menyanyikan konversi suara

Bahasa Inggris |中文简体

Putaran pembaruan waktu terbatas ini akan segera berakhir, gudang akan memasuki negara Archieve, harap diketahui

Studio yang berisi editor F0 yang terlihat, editor timeline campuran speaker dan fitur lainnya (di mana model ONNX digunakan): Moevoicestudio

Garpu dengan antarmuka pengguna yang sangat ditingkatkan: 34j/so-vits-svc-fork

Klien mendukung konversi real-time: w-okada/pengubah suara

Proyek ini berbeda secara fundamental dari VIT, karena berfokus pada menyanyi konversi suara (SVC) daripada teks-ke-pidato (TTS). Dalam proyek ini, fungsionalitas TTS tidak didukung, dan VIT tidak mampu melakukan tugas SVC. Penting untuk dicatat bahwa model yang digunakan dalam kedua proyek ini tidak dapat dipertukarkan atau berlaku secara universal.

Pengumuman

Tujuan dari proyek ini adalah untuk memungkinkan pengembang untuk membuat karakter anime tercinta mereka melakukan tugas menyanyi. Niat pengembang adalah untuk hanya berfokus pada karakter fiksi dan menghindari keterlibatan individu nyata, apa pun yang terkait dengan individu nyata menyimpang dari niat asli pengembang.

Penafian

Proyek ini adalah open-source, usaha offline, dan semua anggota SVCDevelopteam, serta pengembang dan pengelola lain yang terlibat (selanjutnya disebut sebagai kontributor), tidak memiliki kendali atas proyek. Para kontributor tidak pernah memberikan bentuk bantuan apa pun kepada organisasi atau individu mana pun, termasuk tetapi tidak terbatas pada ekstraksi dataset, pemrosesan dataset, dukungan komputasi, dukungan pelatihan, inferensi, dan sebagainya. Para kontributor tidak dan tidak dapat menyadari tujuan yang digunakan pengguna. Oleh karena itu, setiap model AI dan audio yang disintesis yang diproduksi melalui pelatihan proyek ini tidak terkait dengan kontributor. Setiap masalah atau konsekuensi yang timbul dari penggunaannya adalah tanggung jawab satu -satunya pengguna.

Proyek ini dijalankan sepenuhnya offline dan tidak mengumpulkan informasi pengguna atau mengumpulkan data input pengguna. Oleh karena itu, kontributor untuk proyek ini tidak mengetahui semua input dan model pengguna dan karenanya tidak bertanggung jawab atas input pengguna apa pun.

Proyek ini hanya berfungsi sebagai kerangka kerja dan tidak memiliki fungsi sintesis wicara dengan sendirinya. Semua fungsi mengharuskan pengguna untuk melatih model secara mandiri. Selain itu, proyek ini tidak dibundel dengan model apa pun, dan setiap proyek terdistribusi sekunder tidak tergantung pada kontributor proyek ini.

? Ketentuan Penggunaan

PERINGATAN: Harap pastikan bahwa Anda membahas masalah otorisasi apa pun yang terkait dengan dataset sendiri. Anda memikul tanggung jawab penuh atas setiap masalah yang timbul dari penggunaan set data yang tidak resmi untuk pelatihan, serta konsekuensi yang dihasilkan. Repositori dan pemeliharaannya, SVC Develop Team, menafikan hubungan apa pun dengan atau tanggung jawab atas konsekuensinya.

Proyek ini secara eksklusif didirikan untuk tujuan akademik, yang bertujuan untuk memfasilitasi komunikasi dan pembelajaran. Ini tidak dimaksudkan untuk penyebaran di lingkungan produksi.
Setiap video berbasis Sovits yang diposting ke platform video harus menentukan dengan jelas dalam pengantar vokal sumber input dan audio yang digunakan untuk konversi pengubah suara, misalnya, jika Anda menggunakan video/audio orang lain dan mengonversinya dengan memisahkan vokal sebagai sumber input , Anda harus memberikan tautan yang jelas ke video atau musik asli; Jika Anda menggunakan vokal sendiri atau suara yang disintesis oleh mesin sintesis suara lain sebagai sumber input, Anda juga harus menyatakan ini dalam pengantar Anda.
Anda bertanggung jawab penuh atas setiap masalah pelanggaran yang disebabkan oleh sumber input dan semua konsekuensi. Saat menggunakan perangkat lunak sintesis vokal komersial lainnya sebagai sumber input, harap pastikan bahwa Anda mematuhi peraturan perangkat lunak itu, mencatat bahwa peraturan banyak mesin sintesis vokal secara eksplisit menyatakan bahwa mereka tidak dapat digunakan untuk mengonversi sumber input!
Terlibat dalam kegiatan ilegal, serta kegiatan agama dan politik, sangat dilarang saat menggunakan proyek ini. Pengembang proyek dengan keras menentang kegiatan yang disebutkan di atas. Jika Anda tidak setuju dengan ketentuan ini, penggunaan proyek dilarang.
Jika Anda terus menggunakan program ini, Anda akan dianggap telah menyetujui syarat dan ketentuan yang ditetapkan dalam ReadMe dan ReadMe telah mengecilkan hati Anda dan tidak bertanggung jawab atas masalah selanjutnya.
Jika Anda bermaksud menggunakan proyek ini untuk tujuan lain, hubungi dengan silakan dan beri tahu pengelola repositori ini sebelumnya.

Model Pendahuluan

Model konversi suara bernyanyi menggunakan encoder konten softVC untuk mengekstrak fitur ucapan dari audio sumber. Vektor fitur ini secara langsung dimasukkan ke dalam Vit tanpa perlu konversi ke representasi perantara berbasis teks. Akibatnya, nada dan intonasi audio asli dipertahankan. Sementara itu, vocoder digantikan dengan NSF hifigan untuk menyelesaikan masalah gangguan suara.

? Konten Pembaruan Versi 4.1-Stabil

Input fitur diubah ke lapisan ke -12 output transformator VEC konten, dan kompatibel dengan cabang 4.0.
Perbarui difusi dangkal, Anda dapat menggunakan model difusi dangkal untuk meningkatkan kualitas suara.
Menambahkan Dukungan Encoder Whisper-PPG
Menambahkan fusi suara statis/dinamis
Menambahkan kenyaringan
Menambahkan fungsionalitas pengambilan fitur dari RVC

? Pertanyaan tentang kompatibilitas dengan model 4.0

Untuk mendukung model 4.0 dan menggabungkan enkoder ucapan, Anda dapat membuat modifikasi pada file config.json . Tambahkan bidang speech_encoder ke bagian "Model" seperti yang ditunjukkan di bawah ini:

  "model": {
    .........
    "ssl_dim": 256,
    "n_speakers": 200,
    "speech_encoder":"vec256l9"
  }

? Difusi dangkal

Diagram

Versi Python

Berdasarkan pengujian kami, kami telah menentukan bahwa proyek berjalan stabil pada Python 3.8.9 .

? File model pra-terlatih

Diperlukan

Anda perlu memilih satu encoder dari daftar di bawah ini

1. Jika menggunakan ContentVec sebagai Encoder Pidato (Direkomendasikan)

vec768l12 dan vec256l9 memerlukan encoder

ContentVec: Checkpoint_Best_LeGacy_500.pt
- Tempatkan di bawah direktori pretrain

Atau unduh ContentVec berikut, yang hanya berukuran 199mb tetapi memiliki efek yang sama:

ContentVec: hubert_base.pt
- Ubah nama file ke checkpoint_best_legacy_500.pt dan letakkan di direktori pretrain

 # contentvec
wget -P pretrain/ https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/hubert_base.pt -O checkpoint_best_legacy_500.pt
# Alternatively, you can manually download and place it in the hubert directory

2. Jika Hubertsoft digunakan sebagai ucapan ucapan

Soft VC Hubert: Hubert-soft-0d54a1f4.pt
- Tempatkan di bawah direktori pretrain

3. Jika Whisper-PPG sebagai encoder

Unduh model di medium.pt, model ini cocok dengan whisper-ppg
atau unduh model di V2.pt besar, model ini whisper-ppg-large
- Tempatkan di bawah direktori pretrain

4. Jika cnhubertlarge sebagai encoder

Download Model di China-Hubert-Large-Fairseq-ckpt.pt
- Tempatkan di bawah direktori pretrain

5. JIKA DPHUBERT SEBAGAI ENCODER

unduh model di dphubert-sp0.75.pth
- Tempatkan di bawah direktori pretrain

6. Jika WAVLM digunakan sebagai encoder

Download Model di WAVLM-Base+.PT, model ini cocok dengan wavlmbase+
- Tempatkan di bawah direktori pretrain

7. Jika onnxhubert/ContentVec sebagai encoder

unduh model di moess-submodel
- Tempatkan di bawah direktori pretrain

Daftar Encoders

"VEC768L12"
"VEC256L9"
"VEC256L9-INNX"
"VEC256L12-INNX"
"VEC768L9-INNX"
"VEC768L12-INNX"
"hubertsoft-onnx"
"Hubertsoft"
"Whisper-PPG"
"Cnhubertlarge"
"DPhubert"
"Whisper-PPG-Large"
"WavlMbase+"

Opsional (sangat direkomendasikan)

File model pra-terlatih: G_0.pth D_0.pth
- Tempatkan mereka di bawah Direktori logs/44k
File model dasar pretraining model difusi: model_0.pt
- Letakkan di direktori logs/44k/diffusion

Dapatkan model pra-terlatih Sovits dari SVC-Develops-Team (TBD) atau di mana pun.

Model Difusi Referensi Model Difusi Difusi-SVC. Model difusi pra-terlatih bersifat universal dengan DDSP-SVC. Anda dapat pergi ke repo difusi-SVC untuk mendapatkan model difusi pra-terlatih.

Sementara model pretrain biasanya tidak menimbulkan kekhawatiran hak cipta, penting untuk tetap waspada. Dianjurkan untuk berkonsultasi dengan penulis sebelumnya atau dengan hati -hati meninjau deskripsi untuk memastikan penggunaan model yang diizinkan. Ini membantu memastikan kepatuhan terhadap pedoman atau pembatasan yang ditentukan mengenai pemanfaatannya.

Opsional (pilih sesuai kebutuhan)

NSF-Hifigan

Jika Anda menggunakan NSF-HIFIGAN enhancer atau shallow diffusion , Anda perlu mengunduh model NSF-Hifigan yang sudah dilatih sebelumnya.

VOCODER NSF-HIFIGAN Pra-terlatih: NSF_HIFIGAN_20221211.zip
- Unzip dan letakkan empat file di bawah direktori pretrain/nsf_hifigan

 # nsf_hifigan
wget -P pretrain/ https://github.com/openvpi/vocoders/releases/download/nsf-hifigan-v1/nsf_hifigan_20221211.zip
unzip -od pretrain/nsf_hifigan pretrain/nsf_hifigan_20221211.zip
# Alternatively, you can manually download and place it in the pretrain/nsf_hifigan directory
# URL: https://github.com/openvpi/vocoders/releases/tag/nsf-hifigan-v1

RMVPE

Jika Anda menggunakan prediktor rmvpe F0, Anda perlu mengunduh model RMVPE yang sudah terlatih.

Model unduhan di rmvpe.zip, berat ini direkomendasikan.
- unzip rmvpe.zip ， dan ganti nama file model.pt ke rmvpe.pt dan letakkan di bawah direktori pretrain .

~~unduh model di rmvpe.pt~~
- ~~Tempatkan di bawah direktori pretrain~~

FCPE (versi pratinjau)

FCPE (Estimator Pitch Basis Konteks Cepat) adalah prediktor F0 khusus yang dirancang untuk konversi suara real-time dan akan menjadi prediktor F0 yang disukai untuk konversi suara real-time di masa depan (makalah ini sedang ditulis)

Jika Anda menggunakan prediktor fcpe F0, Anda harus mengunduh model FCPE yang sudah terlatih.

unduh model di fcpe.pt
- Tempatkan di bawah direktori pretrain

Persiapan dataset

Cukup tempatkan dataset di direktori dataset_raw dengan struktur file berikut:

 dataset_raw
├───speaker0
│   ├───xxx1-xxx1.wav
│   ├───...
│   └───Lxx-0xx8.wav
└───speaker1
    ├───xx2-0xxx2.wav
    ├───...
    └───xxx7-xxx007.wav

Tidak ada batasan khusus pada format nama untuk setiap file audio (penamaan konvensi seperti 000001.wav hingga 999999.wav juga valid), tetapi jenis file harus `wav``.

Anda dapat menyesuaikan nama speaker seperti yang ditunjukkan di bawah ini:

 dataset_raw
└───suijiSUI
    ├───1.wav
    ├───...
    └───25788785-20221210-200143-856_01_(Vocals)_0_0.wav

Preprocessing

0. Iris Audio

Untuk menghindari overflow memori video selama pelatihan atau pra-pemrosesan, disarankan untuk membatasi panjang klip audio. Memotong audio ke panjang "5s - 15s" lebih dianjurkan. Namun, waktu yang sedikit lebih lama dapat diterima, klip yang terlalu lama dapat menyebabkan masalah seperti torch.cuda.OutOfMemoryError .

Untuk memfasilitasi proses pengiris, Anda dapat menggunakan audio-slicer-gui atau audio-slicer-cli

Secara umum, hanya Minimum Interval yang perlu disesuaikan. Untuk audio lisan, nilai default biasanya cukup, sementara untuk menyanyikan audio, itu dapat disesuaikan dengan sekitar 100 atau bahkan 50 , tergantung pada persyaratan spesifik.

Setelah mengiris, disarankan untuk menghapus klip audio yang terlalu panjang atau terlalu pendek.

Jika Anda menggunakan Encoder Whisper-PPG untuk pelatihan, klip audio harus lebih pendek dari 30-an.

1. Contoh ulang ke 44100Hz dan mono

python resample.py

Peringatan

Meskipun proyek ini memiliki skrip resample.py untuk resampling, pencocokan mono dan kenyaringan, pencocokan kenyaringan default adalah untuk mencocokkan dengan 0DB. Ini dapat menyebabkan kerusakan pada kualitas suara. Sementara paket pencocokan kenyaringan Python Pyloudnorm tidak membatasi level, ini dapat menyebabkan booming sonik. Oleh karena itu, disarankan untuk mempertimbangkan menggunakan perangkat lunak pemrosesan suara profesional, seperti adobe audition untuk pencocokan kenyaringan. Jika Anda sudah menggunakan perangkat lunak lain untuk pencocokan kenyaringan, tambahkan parameter -skip_loudnorm ke perintah run:

python resample.py --skip_loudnorm

2. Secara otomatis membagi dataset menjadi set pelatihan dan validasi, dan menghasilkan file konfigurasi.

python preprocess_flist_config.py --speech_encoder vec768l12

pidato_encoder memiliki opsi berikut

 vec768l12
vec256l9
hubertsoft
whisper-ppg
cnhubertlarge
dphubert
whisper-ppg-large
wavlmbase+

Jika argumen wicara_encoder dihilangkan, nilai standarnya adalah vec768l12

Gunakan embedding kenyaringan

Tambahkan --vol_aug jika Anda ingin mengaktifkan embedding kenyaringan:

python preprocess_flist_config.py --speech_encoder vec768l12 --vol_aug

Setelah mengaktifkan embedding kenyaringan, model terlatih akan cocok dengan kenyaringan sumber input; Kalau tidak, itu akan cocok dengan kenyaringan set pelatihan.

Anda dapat memodifikasi beberapa parameter dalam config.json dan difusi.yaml yang dihasilkan

keep_ckpts : Jaga agar jumlah model sebelumnya selama pelatihan. Diatur ke 0 untuk menjaga semuanya. Default adalah 3 .
all_in_mem : Muat semua dataset ke RAM. Ini dapat diaktifkan ketika disk IO dari beberapa platform terlalu rendah dan memori sistem jauh lebih besar dari dataset Anda.
batch_size : Jumlah data yang dimuat ke GPU untuk sesi pelatihan tunggal dapat disesuaikan dengan ukuran yang lebih rendah dari kapasitas memori GPU.
vocoder_name : Pilih vocoder. Standarnya adalah nsf-hifigan .

difusi.yaml

cache_all_data : Muat semua dataset ke RAM. Ini dapat diaktifkan ketika disk IO dari beberapa platform terlalu rendah dan memori sistem jauh lebih besar dari dataset Anda.
duration : Durasi pengiris audio selama pelatihan, dapat disesuaikan sesuai dengan ukuran memori video, CATATAN: Nilai ini harus kurang dari waktu minimum audio dalam set pelatihan!
batch_size : Jumlah data yang dimuat ke GPU untuk sesi pelatihan tunggal dapat disesuaikan dengan ukuran yang lebih rendah dari kapasitas memori video.
timesteps : Jumlah total langkah dalam model difusi, yang default menjadi 1000.
k_step_max : Pelatihan hanya dapat melatih difusi langkah k_step_max untuk menghemat waktu pelatihan, perhatikan bahwa nilainya harus kurang dari timesteps , 0 adalah untuk melatih seluruh model difusi, Catatan: Jika Anda tidak melatih seluruh model difusi tidak akan dapat digunakan Hanya_diffusion!

Daftar Vocoders

 nsf-hifigan
nsf-snake-hifigan

3. Hasilkan Hubert dan F0

python preprocess_hubert_f0.py --f0_predictor dio

f0_predictor memiliki opsi berikut

 crepe
dio
pm
harvest
rmvpe
fcpe

Jika set pelatihan terlalu bising, disarankan untuk menggunakan crepe untuk menangani f0

Jika parameter F0_Predictor dihilangkan, nilai defaultnya adalah rmvpe

Jika Anda ingin difusi dangkal (opsional), Anda perlu menambahkan parameter --use_diff , misalnya:

python preprocess_hubert_f0.py --f0_predictor dio --use_diff

Mempercepat preprocess

Jika dataset Anda cukup besar, Anda dapat meningkatkan param --num_processes seperti itu:

python preprocess_hubert_f0.py --f0_predictor dio --num_processes 8

Semua pekerja akan ditugaskan ke GPU yang berbeda jika Anda memiliki lebih dari satu GPU.

Setelah menyelesaikan langkah -langkah di atas, direktori dataset akan berisi data yang diproses sebelumnya, dan folder Dataset_raw dapat dihapus.

? ️‍ pelatihan

Model Sovits

python train.py -c configs/config.json -m 44k

Model difusi (opsional)

Jika fungsi difusi dangkal diperlukan, model difusi perlu dilatih. Metode pelatihan model difusi adalah sebagai berikut:

python train_diff.py -c configs/diffusion.yaml

Selama pelatihan, file model akan disimpan ke logs/44k , dan model difusi akan disimpan ke logs/44k/diffusion

? Kesimpulan

Gunakan inference_main.py

 # Example
python inference_main.py -m " logs/44k/G_30400.pth " -c " configs/config.json " -n "君の知らない物語-src.wav " -t 0 -s " nen "

Parameter yang diperlukan:

-m | --model_path : jalur ke model.
-c | --config_path : Path ke file konfigurasi.
-n | --clean_names : Daftar nama file WAV yang terletak di folder raw .
-t | --trans : Pitch shift, mendukung nilai positif dan negatif (semitone).
-s | --spk_list : Pilih ID speaker yang akan digunakan untuk konversi.
-cl | --clip : Kliping audio paksa, diatur ke 0 untuk menonaktifkan (default), mengaturnya ke nilai non-nol (durasi dalam detik) untuk mengaktifkan.

Parameter opsional: lihat bagian selanjutnya

-lg | --linear_gradient : Panjang salib memudar dari dua irisan audio dalam detik. Jika ada suara terputus setelah pengiris paksa, Anda dapat menyesuaikan nilai ini. Jika tidak, disarankan untuk menggunakan nilai default 0.
-f0p | --f0_predictor : Pilih prediktor F0, opsi adalah crepe , pm , dio , harvest , rmvpe , fcpe , nilai default adalah pm (catatan: pooling rata-rata f0 akan diaktifkan saat menggunakan crepe )
-a | --auto_predict_f0 : Prediksi pitch otomatis, jangan memungkinkan ini saat mengonversi suara bernyanyi karena dapat menyebabkan masalah pitch yang serius.
-cm | --cluster_model_path : Model cluster atau jalur indeks pengambilan fitur, jika dibiarkan kosong, itu akan secara otomatis ditetapkan sebagai jalur default dari model-model ini. Jika tidak ada cluster pelatihan atau pengambilan fitur, isi sesuka hati.
-cr | --cluster_infer_ratio : Proporsi skema pengelompokan atau pengambilan fitur berkisar dari 0 hingga 1. Jika tidak ada model pelatihan atau pengambilan fitur, standarnya adalah 0.
-eh | --enhance : Apakah akan menggunakan penambah NSF_HIFIGAN, opsi ini memiliki efek tertentu pada peningkatan kualitas suara untuk beberapa model dengan beberapa set pelatihan, tetapi memiliki efek negatif pada model yang terlatih, sehingga dinonaktifkan secara default.
-shd | --shallow_diffusion : Apakah akan menggunakan difusi dangkal, yang dapat menyelesaikan beberapa masalah suara listrik setelah digunakan. Opsi ini dinonaktifkan secara default. Saat opsi ini diaktifkan, penambah NSF_HIFIGAN akan dinonaktifkan
-usm | --use_spk_mix : apakah akan menggunakan fusi suara dinamis
-lea | --loudness_envelope_adjustment ： Penyesuaian amplop kenyaringan sumber input sehubungan dengan rasio fusi dari amplop kenyaringan output. Semakin dekat ke 1, semakin banyak amplop kenyaringan output digunakan
-fr | --feature_retrieval : Apakah akan menggunakan pengambilan fitur jika model pengelompokan digunakan, itu akan dinonaktifkan, dan parameter cm dan cr akan menjadi jalur indeks dan rasio pencampuran pengambilan fitur

Pengaturan Difusi Dangkal:

-dm | --diffusion_model_path : jalur model difusi
-dc | --diffusion_config_path : Jalur file konfigurasi difusi
-ks | --k_step : Semakin besar jumlah k_steps, semakin dekat dengan hasil model difusi. Defaultnya adalah 100
-od | --only_diffusion : Apakah hanya menggunakan mode difusi, yang tidak memuat model Sovits untuk hanya menggunakan inferensi model difusi
-se | --second_encoding ： Yang melibatkan penerapan pengkodean tambahan ke audio asli sebelum difusi dangkal. Opsi ini dapat menghasilkan hasil yang bervariasi - terkadang positif dan terkadang negatif.

Peringatan

Jika menyimpulkan menggunakan encoder ucapan whisper-ppg , Anda perlu mengatur --clip ke 25 dan -lg ke 1. Kalau tidak, ia akan gagal menyimpulkan dengan benar.

? Pengaturan opsional

Jika Anda puas dengan hasil sebelumnya, atau jika Anda tidak merasa Anda mengerti apa yang berikut, Anda dapat melewatkannya dan itu tidak akan berpengaruh pada penggunaan model. Dampak dari pengaturan opsional yang disebutkan ini relatif kecil, dan sementara mereka mungkin berdampak pada kumpulan data tertentu, dalam kebanyakan kasus perbedaannya mungkin tidak signifikan.

Prediksi F0 otomatis

Selama pelatihan model 4.0, prediktor F0 juga dilatih, yang memungkinkan prediksi pitch otomatis selama konversi suara. Namun, jika hasilnya tidak memuaskan, prediksi pitch manual dapat digunakan sebagai gantinya. Harap dicatat bahwa ketika mengonversi suara bernyanyi, disarankan untuk tidak mengaktifkan fitur ini karena dapat menyebabkan pergeseran pitch yang signifikan.

Atur auto_predict_f0 ke true in inference_main.py .

Kontrol kebocoran timbre berbasis cluster

PENDAHULUAN: Skema pengelompokan yang diimplementasikan dalam model ini bertujuan untuk mengurangi kebocoran timbre dan meningkatkan kesamaan model yang dilatih dengan timbre target, meskipun efeknya mungkin tidak terlalu jelas. Namun, hanya mengandalkan pengelompokan dapat mengurangi kejelasan model dan membuatnya terdengar kurang berbeda. Oleh karena itu, metode fusi diadopsi dalam model ini untuk mengontrol keseimbangan antara pendekatan pengelompokan dan non-clustering. Ini memungkinkan penyesuaian manual dari pertukaran antara "terdengar seperti timbre target" dan "memiliki pengucapan yang jelas" untuk menemukan keseimbangan yang optimal.

Tidak ada perubahan yang diperlukan dalam langkah yang ada. Cukup latih model pengelompokan tambahan, yang menimbulkan biaya pelatihan yang relatif rendah.

Proses Pelatihan:
- Latih di mesin dengan kinerja CPU yang baik. Menurut pengalaman yang masih ada, dibutuhkan sekitar 4 menit untuk melatih setiap speaker pada mesin cloud Tencent dengan CPU 6-core.
- Jalankan python cluster/train_cluster.py . Model output akan disimpan dalam logs/44k/kmeans_10000.pt .
- Model pengelompokan saat ini dapat dilatih menggunakan GPU dengan mengeksekusi python cluster/train_cluster.py --gpu
Proses inferensi:
- Tentukan cluster_model_path di inference_main.py . Jika tidak ditentukan, standarnya adalah logs/44k/kmeans_10000.pt .
- Tentukan cluster_infer_ratio di inference_main.py , di mana 0 berarti tidak menggunakan pengelompokan sama sekali, 1 berarti hanya menggunakan clustering, dan biasanya 0.5 sudah cukup.

Pengambilan fitur

PENDAHULUAN: Seperti halnya skema pengelompokan, kebocoran timbre dapat dikurangi, pengucapan sedikit lebih baik daripada pengelompokan, tetapi akan mengurangi kecepatan inferensi. Dengan menggunakan metode fusi, menjadi mungkin untuk mengontrol keseimbangan antara pengambilan fitur dan pengambilan non-fitur, memungkinkan untuk menyempurnakan proporsi yang diinginkan.

Proses Pelatihan: Pertama, perlu dieksekusi setelah menghasilkan Hubert dan F0:

python train_index.py -c configs/config.json

Output model akan ada di logs/44k/feature_and_index.pkl

Proses inferensi:
- --feature_retrieval perlu dirumuskan terlebih dahulu, dan mode pengelompokan secara otomatis beralih ke mode pengambilan fitur.
- Tentukan cluster_model_path di inference_main.py . Jika tidak ditentukan, default adalah logs/44k/feature_and_index.pkl .
- Tentukan cluster_infer_ratio di inference_main.py , di mana 0 berarti tidak menggunakan pengambilan fitur sama sekali, 1 berarti hanya menggunakan pengambilan fitur, dan biasanya 0.5 sudah cukup.

? ️ Kompresi model

Model yang dihasilkan berisi data yang diperlukan untuk pelatihan lebih lanjut. Jika Anda mengkonfirmasi bahwa model ini final dan tidak digunakan dalam pelatihan lebih lanjut, aman untuk menghapus data ini untuk mendapatkan ukuran file yang lebih kecil (sekitar 1/3).

 # Example
python compress_model.py -c= " configs/config.json " -i= " logs/44k/G_30400.pth " -o= " logs/44k/release.pth "

? ‍? Pencampuran timbre

Pencampuran nada statis

Lihat file webUI.py untuk pencampuran timbre stabil dari fitur gadget/lab.

PENDAHULUAN: Fungsi ini dapat menggabungkan beberapa model menjadi satu model (kombinasi cembung atau kombinasi linier parameter model multipel) untuk membuat suara campuran yang tidak ada dalam kenyataan

Catatan:

Fitur ini hanya didukung untuk model speaker tunggal
Jika Anda memaksa model multi-speaker, sangat penting untuk memastikan ada jumlah pembicara yang sama di setiap model. Ini akan memastikan bahwa suara dengan speakerid yang sama dapat dicampur dengan benar.
Memastikan bahwa bidang model di config.json dari semua model yang akan dicampur adalah sama
Model campuran dapat menggunakan file config.json apa pun dari model yang disintesis. Namun, model pengelompokan tidak akan berfungsi setelah dicampur.
Saat mengunggah model, yang terbaik adalah memasukkan model ke dalam folder dan mengunggahnya bersama setelah memilihnya
Disarankan untuk menyesuaikan rasio pencampuran antara 0 dan 100, atau ke angka lain, tetapi efek yang tidak diketahui akan terjadi dalam mode kombinasi linier
Setelah pencampuran, file bernama output.pth akan disimpan di direktori root proyek
Mode kombinasi cembung akan melakukan softmax untuk menambahkan rasio campuran ke 1, sedangkan mode kombinasi linier tidak akan

Pencampuran timbre dinamis

Lihat file spkmix.py untuk pengantar pencampuran timbre dinamis

Aturan penulisan track campuran karakter:

ID Peran: [[Mulai Waktu 1, Waktu Akhir 1, Nilai Mulai 1, Nilai Mulai 1], [Waktu Mulai 2, Waktu Akhir 2, Nilai Mulai 2]]

Waktu mulai harus sama dengan waktu akhir dari yang sebelumnya. Waktu mulai pertama harus 0, dan waktu akhir terakhir harus 1 (waktu berkisar dari 0 hingga 1).

Semua peran harus diisi. Untuk peran yang tidak digunakan, isi [[0., 1., 0., 0.]]

Nilai fusi dapat diisi secara sewenang -wenang, dan perubahan linier dari nilai awal ke nilai akhir dalam periode waktu yang ditentukan. Itu

Kombinasi linier internal akan secara otomatis dijamin 1 (kondisi kombinasi cembung), sehingga dapat digunakan dengan aman

Gunakan parameter --use_spk_mix saat beralasan untuk mengaktifkan pencampuran timbre dinamis

? Mengekspor ke Onnx

Gunakan onnx_export.py

Buat folder bernama checkpoints dan buka
Buat folder di folder checkpoints sebagai folder proyek Anda, menamakannya setelah proyek Anda, misalnya aziplayer
Ubah nama model Anda sebagai model.pth , file konfigurasi sebagai config.json , dan tempatkan di folder aziplayer yang baru saja Anda buat
Ubah "NyaruTaffy" di path = "NyaruTaffy" di onnx_export.py dengan nama proyek Anda, path = "aziplayer" （onnx_export_speaker_mix membuat Anda dapat mencampur suara speaker）
Jalankan onnx_export.py
Tunggu sampai selesai berlari. model.onnx akan dihasilkan di folder proyek Anda, yang merupakan model yang diekspor.

Catatan: Untuk model Hubert Onnx, silakan gunakan model yang disediakan oleh Moess. Saat ini, mereka tidak dapat diekspor sendiri (Hubert di Fairseq memiliki banyak operator yang tidak didukung dan hal -hal yang melibatkan konstanta yang dapat menyebabkan kesalahan atau mengakibatkan masalah dengan bentuk input/output dan hasil ketika diekspor.)

? Referensi

Url	Penamaan	Judul	Sumber Implementasi
2106.06103	Vits (synthesizer)	Autoencoder variasional bersyarat dengan pembelajaran permusuhan untuk teks ke ujung ke ujung	jaywalnut310/vits
2111.02392	Softvc (ucapan encoder)	Perbandingan unit pembicaraan diskrit dan lembut untuk konversi suara yang lebih baik	Bshall/Hubert
2204.09224	ContentVec (ucapan encoder)	ContentVec: Representasi pidato yang di-swasion yang ditingkatkan dengan menguraikan penutur pembicara	menguntungkan3000/contentVec
2212.04356	Whisper (ucapan encoder)	Pengenalan ucapan yang kuat melalui pengawasan lemah skala besar	Openai/Whisper
2110.13900	WAVLM (ucapan ucapan)	WAVLM: Pra-pelatihan swadaya skala besar untuk pemrosesan ucapan tumpukan penuh	Microsoft/UNILM/WAVLM
2305.17651	DPHUBERT (Encoder Pidato)	DPHUBERT: Distilasi Bersama dan Pemangkasan Model Pidato yang Di-swadaya	PYF98/DPHUBERT
Doi: 10.21437/interspeech.2017-68	Panen (prediktor f0)	Panen: Estimator Frekuensi Fundamental Kinerja Tinggi dari Sinyal Pidato	mmorise/dunia/panen
AES35-000039	Dio (prediktor F0)	Metode Estimasi F0 Cepat dan andal Berdasarkan Periode Ekstraksi Getaran Vokal Getaran Suara dan Pidato Bernyanyi	Mmorise/World/Dio
8461329	Crepe (prediktor F0)	Crepe: representasi konvolusional untuk estimasi nada	Maxrmorrison/Torchcrepe
Doi: 10.1016/j.wocn.2018.07.001	Parselmouth (prediktor F0)	Memperkenalkan Parselmouth: Antarmuka Python ke Praat	Yannickjadoul/Parselmouth
2306.15412v2	RMVPE (prediktor F0)	RMVPE: Model yang kuat untuk estimasi pitch vokal dalam musik polifonik	Mimpi-tinggi/rmvpe
2010.05646	Hifigan (Vocoder)	HIFI-GAN: Jaringan permusuhan generatif untuk sintesis ucapan kesetiaan yang efisien dan tinggi	jik876/hifi-gan
1810.11946	NSF (vocoder)	Model bentuk gelombang berbasis-filter saraf untuk sintesis ucapan parametrik statistik	OpenVPI/Diffsinger/Modules/NSF_HIFIGAN
2006.08195	Snake (Vocoder)	Jaringan saraf gagal mempelajari fungsi berkala dan cara memperbaikinya	Edwarddixon/Snake
2105.02446v3	Difusi dangkal (postprocessing)	Diffsinger: Sintesis Suara Bernyanyi melalui Mekanisme Difusi Dangkal	CNCHTU/Difusi-SVC
K-means	Fitur k-means clustering (preprocessing)	Beberapa metode untuk klasifikasi dan analisis pengamatan multivariat	Repo ini
	Fitur pengambilan topk (preprocessing)	Konversi Suara Berbasis Pengambilan	RVC-Project/Retrieval-Based-Voice-Conversion-Webui
	Whisper PPG	Whisper PPG	Playvoice/whisper_ppg
	Bigvgan	Bigvgan	Playvoice/so-vits-svc-5.0

☀️ Kontributor sebelumnya

Untuk beberapa alasan penulis menghapus repositori asli. Karena kelalaian anggota organisasi, daftar kontributor dihapus karena semua file secara langsung diunggulkan ke repositori ini pada awal rekonstruksi repositori ini. Sekarang tambahkan daftar kontributor sebelumnya ke ReadMe.md.

Beberapa anggota belum terdaftar sesuai dengan keinginan pribadi mereka.

_Misteo

_Xiaomiku01

_しぐれ

_{Tomogasukunai}

_Plachtaa

_{zd 小达}

_凍聲響世

Beberapa ketentuan hukum untuk referensi

Negara, wilayah, organisasi, atau individu mana pun yang menggunakan proyek ini harus mematuhi undang -undang berikut.

《民法典》

第一千零一十九条

任何组织或者个人不得以丑化、污损，或者利用信息技术手段伪造等方式侵害他人的肖像权。未经肖像权人同意，不得制作、使用、公开肖像权人的肖像，但是法律另有规定的除外。未经肖像权人同意，肖像作品权利人不得以发表、复制、发行、出租、展览等方式使用或者公开肖像权人的肖像。对自然人声音的保护，参照适用肖像权保护的有关规定。

第一千零二十四条

【名誉权】民事主体享有名誉权。任何组织或者个人不得以侮辱、诽谤等方式侵害他人的名誉权。

第一千零二十七条

【作品侵害名誉权】行为人发表的文学、艺术作品以真人真事或者特定人为描述对象，含有侮辱、诽谤内容，侵害他人名誉权的，受害人有权依法请求该行为人承担民事责任。行为人发表的文学、艺术作品不以特定人为描述对象，仅其中的情节与该特定人的情况相似的，不承担民事责任。

《中华人民和国宪法》

《中华人民和国刑法》

《中华人民和国民法典》

《中华人民和国合同法》

? Terima kasih kepada semua kontributor atas upaya mereka

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-02-24
ukuran 809.61KB
Berasal dari Github

Aplikasi Terkait

bintangi begitu

2024-07-22
CANDAAN

2024-02-26
jadi perangkat lunak pencocokan suara

2023-10-12
jadi aplikasi apa

2023-05-23
Korps Panzer: Jadi

2022-08-17
Jerman dalam Perang: Jadi

2022-08-08

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0

Informasi Terkait Semua

so vits svc

SoftVC Vits menyanyikan konversi suara

Pengumuman

Penafian

? Ketentuan Penggunaan

Model Pendahuluan

? Konten Pembaruan Versi 4.1-Stabil

? Pertanyaan tentang kompatibilitas dengan model 4.0

? Difusi dangkal

Versi Python

? File model pra-terlatih

Diperlukan

1. Jika menggunakan ContentVec sebagai Encoder Pidato (Direkomendasikan)

2. Jika Hubertsoft digunakan sebagai ucapan ucapan

3. Jika Whisper-PPG sebagai encoder

4. Jika cnhubertlarge sebagai encoder

5. JIKA DPHUBERT SEBAGAI ENCODER

6. Jika WAVLM digunakan sebagai encoder

7. Jika onnxhubert/ContentVec sebagai encoder

Daftar Encoders

Opsional (sangat direkomendasikan)

Opsional (pilih sesuai kebutuhan)

NSF-Hifigan

RMVPE

FCPE (versi pratinjau)

Persiapan dataset

Preprocessing

0. Iris Audio

1. Contoh ulang ke 44100Hz dan mono

Peringatan

2. Secara otomatis membagi dataset menjadi set pelatihan dan validasi, dan menghasilkan file konfigurasi.

Anda dapat memodifikasi beberapa parameter dalam config.json dan difusi.yaml yang dihasilkan

difusi.yaml

Daftar Vocoders

3. Hasilkan Hubert dan F0

? ️‍ pelatihan

Model Sovits

Model difusi (opsional)

? Kesimpulan

Peringatan

? Pengaturan opsional

Prediksi F0 otomatis

Kontrol kebocoran timbre berbasis cluster

Pengambilan fitur

? ️ Kompresi model

? ‍? Pencampuran timbre

Pencampuran nada statis

Pencampuran timbre dinamis

? Mengekspor ke Onnx

? Referensi

☀️ Kontributor sebelumnya

Beberapa ketentuan hukum untuk referensi

Negara, wilayah, organisasi, atau individu mana pun yang menggunakan proyek ini harus mematuhi undang -undang berikut.

《民法典》

第一千零一十九条

第一千零二十四条

第一千零二十七条

《中华人民 和国宪法》

《中华人民 和国刑法》

《中华人民 和国民法典》

《中华人民 和国合同法》

? Terima kasih kepada semua kontributor atas upaya mereka

《中华人民和国宪法》

《中华人民和国刑法》

《中华人民和国民法典》

《中华人民和国合同法》