PolyLangVITS下載 - PolyLangVITS源代碼下載

PolyLangVITS

Ai源碼

Pretrained_Models

下載

polylangvits

使用VIT的多語言語音合成系統

先決條件

Windows/Linux系統至少為16GB RAM。
具有至少12GB VRAM的GPU。
python == 3.8
安裝了Anaconda。
安裝了Pytorch。
CUDA 11.X安裝。
安裝了Zlib DLL。

pytorch安裝命令：

pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117

CUDA 11.7安裝： https://developer.nvidia.com/cuda-11-7-0-download-archive

zlib dll安裝： https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html#install-zlib-windows

手動安裝pyopenjtalk： pip install -U pyopenjtalk --no-build-isolation

如果此命令未安裝，請在繼續之前安裝以下庫： cmake Cython

安裝

創建一個Anaconda環境：

conda create -n polylangvits python=3.8

激活環境：

conda activate polylangvits

克隆此存儲庫到您的本地機器：

git clone https://github.com/ORI-Muchim/PolyLangVITS.git

 cd PolyLangVITS

安裝必要的依賴項：

pip install -r requirements.txt

準備_datasets

將音頻文件如下。

.mp3或.wav文件還可以。

您必須在揚聲器文件夾的背面編寫“ [語言代碼]”。

 PolyLangVITS
├────datasets
│       ├───speaker0[KO]
│       │   ├────1.mp3
│       │   └────1.wav
│       └───speaker1[JA]
│       │    ├───1.mp3
│       │    └───1.wav
│       ├───speaker2[EN]
│       │   ├────1.mp3
│       │   └────1.wav
│       ├───speaker3[ZH]
│       │   ├────1.mp3
│       │   └────1.wav
│       ├integral.py
│       └integral_low.py
│
├────vits
├────get_pretrained_model.py
├────inference.py
├────main_low.py
├────main_resume.py
├────main.py
├────Readme.md
└────requirements.txt

這只是一個例子，可以添加更多揚聲器。

用法

要啟動此工具，請使用以下命令，替換{language}，{model_name}和{sample_rate}用您的值：

python main.py {language} {model_name} {sample_rate}

對於規格低的人（VRAM <12GB），請使用此代碼：

python main_low.py {language} {model_name} {sample_rate}

如果數據配置已完成並且要恢復培訓，請輸入此代碼：

python main_resume.py {model_name}

推理

訓練模型後，您可以使用以下命令來生成預測，以{model_name}和{model_step}的相應值替換：

python inference.py {model_name} {model_step}

對於文本進行語音推斷，請使用以下內容：

python inference-stt.py {model_name} {model_step}

另外，您可以手動通過文本而無需編輯代碼：

python inference-stt.py {model_name} {model_step} {text}

參考

有關更多信息，請參閱以下存儲庫：

jaywalnut310/vits
cjangcjengh/vits
kyubyong/g2pk
TENEBO/G2PK2
亨利馬斯/音頻器

展開

附加信息

版本 Pretrained_Models
類型 Ai源碼
更新時間 2025-09-14
大小 31.98MB
來自於 Github

相關應用

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ML stack

Ai源碼

1.0.0
awesome free chatgpt

Ai源碼

1.0.0
pywin_contextmenu

Ai源碼

Version update
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部

PolyLangVITS

polylangvits

目錄

先決條件

安裝

準備_datasets

用法

推理

參考