Bahasa Inggris |中文简体|日本語| 한국어 | Türkçe
Zero-shot TTS: Masukkan sampel vokal 5 detik dan mengalami konversi teks-ke-speech instan.
Beberapa shot TTS: Fine-Tune model dengan hanya 1 menit data pelatihan untuk peningkatan kesamaan suara dan realisme.
Dukungan lintas-bahasa: Kesimpulan dalam bahasa yang berbeda dari dataset pelatihan, saat ini mendukung bahasa Inggris, Jepang, Korea, Kanton dan Cina.
Alat WebUI: Alat terintegrasi termasuk pemisahan iringan suara, segmentasi set pelatihan otomatis, ASR Cina, dan pelabelan teks, membantu pemula dalam membuat kumpulan data pelatihan dan model GPT/Sovits.
Lihat video demo kami di sini!
Speaker yang tidak terlihat beberapa demo fine-tuning-tuning:
Panduan Pengguna: 简体中文 | Bahasa inggris
Untuk pengguna di China, Anda dapat mengklik di sini untuk menggunakan Autodl Cloud Docker untuk mengalami fungsionalitas lengkap secara online.
Catatan: numba == 0.56.4 Membutuhkan Py <3.11
Jika Anda adalah pengguna Windows (diuji dengan win> = 10), Anda dapat mengunduh paket terintegrasi dan klik dua kali di go-webui.bat untuk memulai GPT-Sovits-Webui.
Pengguna di Cina dapat mengunduh paket di sini.
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.shCatatan: Model yang dilatih dengan GPU pada Mac menghasilkan kualitas yang jauh lebih rendah dibandingkan dengan yang dilatih pada perangkat lain, jadi kami sementara menggunakan CPU sebagai gantinya.
xcode-select --install .brew install ffmpeg .conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txtconda install ffmpegsudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 ' Unduh dan tempatkan ffmpeg.exe dan ffprobe.exe di root GPT-Sovits.
Instal Visual Studio 2017 (Korea TTS saja)
brew install ffmpegpip install -r requirements.txt docker compose -f "docker-compose.yaml" up -d
Seperti di atas, ubah parameter yang sesuai berdasarkan situasi Anda yang sebenarnya, lalu jalankan perintah berikut:
docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx
Pengguna di Cina dapat mengunduh semua model ini di sini.
Unduh model pretrained dari model GPT-Sovits dan letakkan di GPT_SoVITS/pretrained_models .
Unduh Model G2PW dari G2PWModel_1.1.zip, unzip dan ganti nama menjadi G2PWModel , dan kemudian letakkan di GPT_SoVITS/text . (Hanya TTS Cina)
Untuk UVR5 (vokal/pengiring pemisahan & penghapusan Reverberation, tambahan), unduh model dari bobot UVR5 dan tempatkan di tools/uvr5/uvr5_weights .
Untuk ASR Cina (tambahan), unduh model dari model Damo ASR, model Damo VAD, dan model Damo punc dan tempatkan di tools/asr/models .
Untuk ASR bahasa Inggris atau Jepang (tambahan), unduh model dari V3 besar yang lebih cepat dan letakkan di tools/asr/models . Juga, model lain mungkin memiliki efek yang sama dengan jejak disk yang lebih kecil.
Format File Annotation .list TTS:
vocal_path|speaker_name|language|text
Kamus Bahasa:
Contoh:
D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.
Klik dua kali go-webui.bat atau gunakan go-webui.ps1 jika Anda ingin beralih ke v1, lalu klik dua kali go-webui-v1.bat atau gunakan go-webui-v1.ps1
python webui.py < language(optional) >Jika Anda ingin beralih ke V1, maka
python webui.py v1 < language(optional) >Atau versi Maunally Switch di WebUI
1.Fill in the audio path
2.Slice the audio into small chunks
3.Denoise(optinal)
4.ASR
5.Proofreading ASR transcriptions
6.Go to the next Tab, then finetune the model
Klik dua kali go-webui-v2.bat atau gunakan go-webui-v2.ps1 , lalu buka inferensi webui pada 1-GPT-SoVITS-TTS/1C-inference
python GPT_SoVITS/inference_webui.py < language(optional) >ATAU
python webui.py Kemudian buka inferensi WebUI di 1-GPT-SoVITS-TTS/1C-inference
Fitur Baru:
Dukung Korea dan Kanton
Frontend teks yang dioptimalkan
Model pra-terlatih diperpanjang dari 2k jam hingga 5k jam
Kualitas sintesis yang ditingkatkan untuk audio referensi berkualitas rendah
lebih detail
Gunakan V2 dari lingkungan V1:
pip install -r requirements.txt untuk memperbarui beberapa paket
Klon kode terbaru dari GitHub.
Unduh model pretrained v2 dari huggingface dan masukkan ke dalam GPT_SoVITSpretrained_modelsgsv-v2final-pretrained .
China V2 Tambahan: G2PWMODEL_1.1.zip (Unduh model G2PW, unzip dan ganti nama menjadi G2PWModel , dan kemudian letakkan di GPT_SoVITS/text .
Prioritas Tinggi:
Fitur:
Gunakan baris perintah untuk membuka webui untuk uvr5
python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>
Inilah bagaimana segmentasi audio dari dataset dilakukan dengan menggunakan baris perintah
python audio_slicer.py
--input_path "<path_to_original_audio_file_or_directory>"
--output_root "<directory_where_subdivided_audio_clips_will_be_saved>"
--threshold <volume_threshold>
--min_length <minimum_duration_of_each_subclip>
--min_interval <shortest_time_gap_between_adjacent_subclips>
--hop_size <step_size_for_computing_volume_curve>
Beginilah cara pemrosesan dataset ASR dilakukan dengan menggunakan baris perintah (hanya Cina)
python tools/asr/funasr_asr.py -i <input> -o <output>
Pemrosesan ASR dilakukan melalui Faster_Whisper (penandaan ASR kecuali Cina)
(Tidak ada bilah kemajuan, kinerja GPU dapat menyebabkan penundaan waktu)
python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>
Path Simpan Daftar Kustom diaktifkan
Terima kasih khusus kepada proyek dan kontributor berikut:
Bersyukur kepada @naozumi520 karena menyediakan set pelatihan Kanton dan untuk panduan tentang pengetahuan terkait Kanton.