Sistem sintesis ucapan multibahasa menggunakan VITS
16GB .12GB VRAM.Pytorch Install Command:
pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117 CUDA 11.7 Instal: https://developer.nvidia.com/cuda-11-7-0-download-archive
Zlib dll instal: https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html#install-zlib-windows
Instal Pyopenjtalk secara manual: pip install -U pyopenjtalk --no-build-isolation
Jika perintah ini tidak menginstal, silakan instal perpustakaan berikut sebelum melanjutkan: cmake Cython
conda create -n polylangvits python=3.8conda activate polylangvitsgit clone https://github.com/ORI-Muchim/PolyLangVITS.git cd PolyLangVITSpip install -r requirements.txtTempatkan file audio sebagai berikut.
file .mp3 atau .wav baik -baik saja.
Anda harus menulis '[Kode Bahasa]' di bagian belakang folder speaker.
PolyLangVITS
├────datasets
│ ├───speaker0[KO]
│ │ ├────1.mp3
│ │ └────1.wav
│ └───speaker1[JA]
│ │ ├───1.mp3
│ │ └───1.wav
│ ├───speaker2[EN]
│ │ ├────1.mp3
│ │ └────1.wav
│ ├───speaker3[ZH]
│ │ ├────1.mp3
│ │ └────1.wav
│ ├integral.py
│ └integral_low.py
│
├────vits
├────get_pretrained_model.py
├────inference.py
├────main_low.py
├────main_resume.py
├────main.py
├────Readme.md
└────requirements.txt
Ini hanya sebuah contoh, dan tidak apa -apa untuk menambahkan lebih banyak speaker.
Untuk memulai alat ini, gunakan perintah berikut, mengganti {bahasa}, {model_name}, dan {sample_rate} dengan nilai masing -masing:
python main.py {language} {model_name} {sample_rate}Bagi mereka yang memiliki spesifikasi rendah (VRAM <12GB), silakan gunakan kode ini:
python main_low.py {language} {model_name} {sample_rate}Jika konfigurasi data selesai dan Anda ingin melanjutkan pelatihan, masukkan kode ini:
python main_resume.py {model_name}Setelah model dilatih, Anda dapat menghasilkan prediksi dengan menggunakan perintah berikut, mengganti {model_name} dan {model_step} dengan nilai masing -masing:
python inference.py {model_name} {model_step}Untuk kesimpulan teks ke bicara, gunakan yang berikut:
python inference-stt.py {model_name} {model_step}Juga, Anda dapat secara manual lulus teks tanpa mengedit kode dengan:
python inference-stt.py {model_name} {model_step} {text}Untuk informasi lebih lanjut, silakan merujuk ke repositori berikut: