Download PolyLangVITS - Unduh Kode Sumber PolyLangVITS

PolyLangVITS

Kode Sumber AI

Pretrained_Models

Unduh

Polylangvit

Sistem sintesis ucapan multibahasa menggunakan VITS

Daftar isi

Prasyarat
Instalasi
Persiapan_datasets
Penggunaan
Kesimpulan
Referensi

Prasyarat

Sistem Windows/Linux dengan RAM minimal 16GB .
GPU dengan setidaknya 12GB VRAM.
Python == 3.8
Anaconda terpasang.
Pytorch terpasang.
Cuda 11.x terpasang.
Zlib dll terpasang.

Pytorch Install Command:

pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117

CUDA 11.7 Instal: https://developer.nvidia.com/cuda-11-7-0-download-archive

Zlib dll instal: https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html#install-zlib-windows

Instal Pyopenjtalk secara manual: pip install -U pyopenjtalk --no-build-isolation

Jika perintah ini tidak menginstal, silakan instal perpustakaan berikut sebelum melanjutkan: cmake Cython

Instalasi

Buat lingkungan Anaconda:

conda create -n polylangvits python=3.8

Aktifkan lingkungan:

conda activate polylangvits

Kloning repositori ini ke mesin lokal Anda:

git clone https://github.com/ORI-Muchim/PolyLangVITS.git

Arahkan ke direktori yang dikloning:

 cd PolyLangVITS

Instal dependensi yang diperlukan:

pip install -r requirements.txt

Persiapan_datasets

Tempatkan file audio sebagai berikut.

file .mp3 atau .wav baik -baik saja.

Anda harus menulis '[Kode Bahasa]' di bagian belakang folder speaker.

 PolyLangVITS
├────datasets
│       ├───speaker0[KO]
│       │   ├────1.mp3
│       │   └────1.wav
│       └───speaker1[JA]
│       │    ├───1.mp3
│       │    └───1.wav
│       ├───speaker2[EN]
│       │   ├────1.mp3
│       │   └────1.wav
│       ├───speaker3[ZH]
│       │   ├────1.mp3
│       │   └────1.wav
│       ├integral.py
│       └integral_low.py
│
├────vits
├────get_pretrained_model.py
├────inference.py
├────main_low.py
├────main_resume.py
├────main.py
├────Readme.md
└────requirements.txt

Ini hanya sebuah contoh, dan tidak apa -apa untuk menambahkan lebih banyak speaker.

Penggunaan

Untuk memulai alat ini, gunakan perintah berikut, mengganti {bahasa}, {model_name}, dan {sample_rate} dengan nilai masing -masing:

python main.py {language} {model_name} {sample_rate}

Bagi mereka yang memiliki spesifikasi rendah (VRAM <12GB), silakan gunakan kode ini:

python main_low.py {language} {model_name} {sample_rate}

Jika konfigurasi data selesai dan Anda ingin melanjutkan pelatihan, masukkan kode ini:

python main_resume.py {model_name}

Kesimpulan

Setelah model dilatih, Anda dapat menghasilkan prediksi dengan menggunakan perintah berikut, mengganti {model_name} dan {model_step} dengan nilai masing -masing:

python inference.py {model_name} {model_step}

Untuk kesimpulan teks ke bicara, gunakan yang berikut:

python inference-stt.py {model_name} {model_step}

Juga, Anda dapat secara manual lulus teks tanpa mengedit kode dengan:

python inference-stt.py {model_name} {model_step} {text}

Referensi

Untuk informasi lebih lanjut, silakan merujuk ke repositori berikut:

jaywalnut310/vits
Cjangcjengh/vits
Kyubyong/G2PK
Tenebo/G2PK2
Henrymass/Audioslicer

Memperluas

Informasi Tambahan

Versi Pretrained_Models
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-14
ukuran 31.98MB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua

PolyLangVITS

Polylangvit