PolyLangVITS下载 - PolyLangVITS源代码下载

PolyLangVITS

Ai源码

Pretrained_Models

下载

polylangvits

使用VIT的多语言语音合成系统

先决条件

Windows/Linux系统至少为16GB RAM。
具有至少12GB VRAM的GPU。
python == 3.8
安装了Anaconda。
安装了Pytorch。
CUDA 11.X安装。
安装了Zlib DLL。

pytorch安装命令：

pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117

CUDA 11.7安装： https://developer.nvidia.com/cuda-11-7-0-download-archive

zlib dll安装： https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html#install-zlib-windows

手动安装pyopenjtalk： pip install -U pyopenjtalk --no-build-isolation

如果此命令未安装，请在继续之前安装以下库： cmake Cython

安装

创建一个Anaconda环境：

conda create -n polylangvits python=3.8

激活环境：

conda activate polylangvits

克隆此存储库到您的本地机器：

git clone https://github.com/ORI-Muchim/PolyLangVITS.git

 cd PolyLangVITS

安装必要的依赖项：

pip install -r requirements.txt

准备_datasets

将音频文件如下。

.mp3或.wav文件还可以。

您必须在扬声器文件夹的背面编写“ [语言代码]”。

 PolyLangVITS
├────datasets
│       ├───speaker0[KO]
│       │   ├────1.mp3
│       │   └────1.wav
│       └───speaker1[JA]
│       │    ├───1.mp3
│       │    └───1.wav
│       ├───speaker2[EN]
│       │   ├────1.mp3
│       │   └────1.wav
│       ├───speaker3[ZH]
│       │   ├────1.mp3
│       │   └────1.wav
│       ├integral.py
│       └integral_low.py
│
├────vits
├────get_pretrained_model.py
├────inference.py
├────main_low.py
├────main_resume.py
├────main.py
├────Readme.md
└────requirements.txt

这只是一个例子，可以添加更多扬声器。

用法

要启动此工具，请使用以下命令，替换{language}，{model_name}和{sample_rate}用您的值：

python main.py {language} {model_name} {sample_rate}

对于规格低的人（VRAM <12GB），请使用此代码：

python main_low.py {language} {model_name} {sample_rate}

如果数据配置已完成并且要恢复培训，请输入此代码：

python main_resume.py {model_name}

推理

训练模型后，您可以使用以下命令来生成预测，以{model_name}和{model_step}的相应值替换：

python inference.py {model_name} {model_step}

对于文本进行语音推断，请使用以下内容：

python inference-stt.py {model_name} {model_step}

另外，您可以手动通过文本而无需编辑代码：

python inference-stt.py {model_name} {model_step} {text}

参考

有关更多信息，请参阅以下存储库：

jaywalnut310/vits
cjangcjengh/vits
kyubyong/g2pk
TENEBO/G2PK2
亨利马斯/音频器

展开

附加信息

版本 Pretrained_Models
类型 Ai源码
更新时间 2025-09-14
大小 31.98MB
来自于 Github

PolyLangVITS

polylangvits

目录

先决条件

安装

准备_datasets

用法

推理

参考

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express