Unduh GPT SoVITS - Unduh Kode Sumber GPT SoVITS

GPT SoVITS

Kode Sumber AI

v2

Unduh

GPT-SOVITS-WEBUI

Konversi suara beberapa shot yang kuat dan webui teks-ke-ucapan.

Bahasa Inggris |中文简体|日本語| 한국어 | Türkçe

Fitur:

Zero-shot TTS: Masukkan sampel vokal 5 detik dan mengalami konversi teks-ke-speech instan.
Beberapa shot TTS: Fine-Tune model dengan hanya 1 menit data pelatihan untuk peningkatan kesamaan suara dan realisme.
Dukungan lintas-bahasa: Kesimpulan dalam bahasa yang berbeda dari dataset pelatihan, saat ini mendukung bahasa Inggris, Jepang, Korea, Kanton dan Cina.
Alat WebUI: Alat terintegrasi termasuk pemisahan iringan suara, segmentasi set pelatihan otomatis, ASR Cina, dan pelabelan teks, membantu pemula dalam membuat kumpulan data pelatihan dan model GPT/Sovits.

Lihat video demo kami di sini!

Speaker yang tidak terlihat beberapa demo fine-tuning-tuning:

Sewit.shot.fine.tuning.demo.mp4

Panduan Pengguna: 简体中文 | Bahasa inggris

Instalasi

Untuk pengguna di China, Anda dapat mengklik di sini untuk menggunakan Autodl Cloud Docker untuk mengalami fungsionalitas lengkap secara online.

Lingkungan yang diuji

Python 3.9, Pytorch 2.0.1, Cuda 11
Python 3.10.13, Pytorch 2.1.2, Cuda 12.3
Python 3.9, Pytorch 2.2.2, MacOS 14.4.1 (Apple Silicon)
Python 3.9, Pytorch 2.2.2, Perangkat CPU

Catatan: numba == 0.56.4 Membutuhkan Py <3.11

Windows

Jika Anda adalah pengguna Windows (diuji dengan win> = 10), Anda dapat mengunduh paket terintegrasi dan klik dua kali di go-webui.bat untuk memulai GPT-Sovits-Webui.

Pengguna di Cina dapat mengunduh paket di sini.

Linux

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh

MacOS

Catatan: Model yang dilatih dengan GPU pada Mac menghasilkan kualitas yang jauh lebih rendah dibandingkan dengan yang dilatih pada perangkat lain, jadi kami sementara menggunakan CPU sebagai gantinya.

Instal alat-alat baris perintah XCODE dengan menjalankan xcode-select --install .
Instal FFMPEG dengan menjalankan brew install ffmpeg .
Instal program dengan menjalankan perintah berikut:

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt

Instal secara manual

Instal FFMPEG

Pengguna Conda

conda install ffmpeg

Pengguna Ubuntu/Debian

sudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 '

Pengguna Windows

Unduh dan tempatkan ffmpeg.exe dan ffprobe.exe di root GPT-Sovits.

Instal Visual Studio 2017 (Korea TTS saja)

Pengguna MacOS

brew install ffmpeg

Instal ketergantungan

pip install -r requirements.txt

Menggunakan Docker

Konfigurasi Docker-Compose.YAML

Mengenai tag gambar: Karena pembaruan cepat di basis kode dan proses pengemasan dan pengujian yang lambat, silakan periksa hub Docker untuk gambar terbaru yang saat ini dikemas dan pilih sesuai situasi Anda, atau sebagai alternatifnya, membangun secara lokal menggunakan DockerFile sesuai dengan kebutuhan Anda sendiri.
Variabel Lingkungan ：

IS_HALF: Mengontrol setengah presisi/presisi ganda. Ini biasanya menjadi penyebab jika konten di bawah direktori 4-CNHUBERT/5-WAV32K tidak dihasilkan dengan benar selama langkah "SSL Extracting". Sesuaikan dengan benar atau salah berdasarkan situasi aktual Anda.

Konfigurasi Volume, direktori root aplikasi di dalam wadah diatur ke /workspace. Docker-compose.YAML default mencantumkan beberapa contoh praktis untuk mengunggah/mengunduh konten.
SHM_SIZE: Memori default yang tersedia untuk desktop Docker di Windows terlalu kecil, yang dapat menyebabkan operasi abnormal. Sesuaikan sesuai dengan situasi Anda sendiri.
Di bawah bagian Deploy, pengaturan terkait GPU harus disesuaikan dengan hati-hati sesuai dengan sistem Anda dan keadaan aktual.

Berjalan dengan Docker Compose

 docker compose -f "docker-compose.yaml" up -d

Berlari dengan perintah Docker

Seperti di atas, ubah parameter yang sesuai berdasarkan situasi Anda yang sebenarnya, lalu jalankan perintah berikut:

 docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx

Model pretrained

Pengguna di Cina dapat mengunduh semua model ini di sini.

Unduh model pretrained dari model GPT-Sovits dan letakkan di GPT_SoVITS/pretrained_models .
Unduh Model G2PW dari G2PWModel_1.1.zip, unzip dan ganti nama menjadi G2PWModel , dan kemudian letakkan di GPT_SoVITS/text . (Hanya TTS Cina)
Untuk UVR5 (vokal/pengiring pemisahan & penghapusan Reverberation, tambahan), unduh model dari bobot UVR5 dan tempatkan di tools/uvr5/uvr5_weights .
Untuk ASR Cina (tambahan), unduh model dari model Damo ASR, model Damo VAD, dan model Damo punc dan tempatkan di tools/asr/models .
Untuk ASR bahasa Inggris atau Jepang (tambahan), unduh model dari V3 besar yang lebih cepat dan letakkan di tools/asr/models . Juga, model lain mungkin memiliki efek yang sama dengan jejak disk yang lebih kecil.

Format dataset

Format File Annotation .list TTS:

 vocal_path|speaker_name|language|text

Kamus Bahasa:

'ZH': Cina
'Ja': Jepang
'en': bahasa Inggris
'KO': Korea
'Yue': Kanton

Contoh:

 D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.

Finetune dan inferensi

Buka WebUI

Pengguna Paket Terpadu

Klik dua kali go-webui.bat atau gunakan go-webui.ps1 jika Anda ingin beralih ke v1, lalu klik dua kali go-webui-v1.bat atau gunakan go-webui-v1.ps1

Yang lain

python webui.py < language(optional) >

Jika Anda ingin beralih ke V1, maka

python webui.py v1 < language(optional) >

Atau versi Maunally Switch di WebUI

Finetune

Path Auto-Filling sekarang didukung

 1.Fill in the audio path

 2.Slice the audio into small chunks

 3.Denoise(optinal)

 4.ASR

 5.Proofreading ASR transcriptions

 6.Go to the next Tab, then finetune the model

Buka Inferensi Webui

Pengguna Paket Terpadu

Klik dua kali go-webui-v2.bat atau gunakan go-webui-v2.ps1 , lalu buka inferensi webui pada 1-GPT-SoVITS-TTS/1C-inference

Yang lain

python GPT_SoVITS/inference_webui.py < language(optional) >

ATAU

python webui.py

Kemudian buka inferensi WebUI di 1-GPT-SoVITS-TTS/1C-inference

Catatan rilis V2

Fitur Baru:

Dukung Korea dan Kanton
Frontend teks yang dioptimalkan
Model pra-terlatih diperpanjang dari 2k jam hingga 5k jam
Kualitas sintesis yang ditingkatkan untuk audio referensi berkualitas rendah
lebih detail

Gunakan V2 dari lingkungan V1:

pip install -r requirements.txt untuk memperbarui beberapa paket
Klon kode terbaru dari GitHub.
Unduh model pretrained v2 dari huggingface dan masukkan ke dalam GPT_SoVITSpretrained_modelsgsv-v2final-pretrained .
China V2 Tambahan: G2PWMODEL_1.1.zip （Unduh model G2PW, unzip dan ganti nama menjadi G2PWModel , dan kemudian letakkan di GPT_SoVITS/text .

Daftar TODO

(Tambahan) Metode untuk berjalan dari baris perintah

Gunakan baris perintah untuk membuka webui untuk uvr5

 python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>

Inilah bagaimana segmentasi audio dari dataset dilakukan dengan menggunakan baris perintah

 python audio_slicer.py 
    --input_path "<path_to_original_audio_file_or_directory>" 
    --output_root "<directory_where_subdivided_audio_clips_will_be_saved>" 
    --threshold <volume_threshold> 
    --min_length <minimum_duration_of_each_subclip> 
    --min_interval <shortest_time_gap_between_adjacent_subclips> 
    --hop_size <step_size_for_computing_volume_curve>

Beginilah cara pemrosesan dataset ASR dilakukan dengan menggunakan baris perintah (hanya Cina)

 python tools/asr/funasr_asr.py -i <input> -o <output>

Pemrosesan ASR dilakukan melalui Faster_Whisper (penandaan ASR kecuali Cina)

(Tidak ada bilah kemajuan, kinerja GPU dapat menyebabkan penundaan waktu)

 python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>

Path Simpan Daftar Kustom diaktifkan

Kredit

Terima kasih khusus kepada proyek dan kontributor berikut:

Penelitian Teoritis

ar-vits
Badai soundst
vit
Transfertts
ContentVec
Hifi-gan
pidato ikan

Model pretrained

Pretrain pidato Cina
China-Roberta-WWM-Ext-Large

Teks frontend untuk inferensi

Paddlespeech zh_normalization
Langsmegment
G2PW
pypinyin-g2pw
Paddlespeech G2PW

Alat webui

Ultimatevocalremovergui
Audio-Slicer
Subfix
Ffmpeg
gradio
lebih cepat whisper
Funasr

Bersyukur kepada @naozumi520 karena menyediakan set pelatihan Kanton dan untuk panduan tentang pengetahuan terkait Kanton.

Terima kasih kepada semua kontributor atas upaya mereka

Memperluas

Informasi Tambahan

Versi v2
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-19
ukuran 6.11MB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Film dan televisi GPT versi terbaru

2023-10-30

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua