PolyLangVITS
Pretrained_Models
使用VIT的多语言语音合成系统
16GB RAM。12GB VRAM的GPU。pytorch安装命令:
pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117 CUDA 11.7安装: https://developer.nvidia.com/cuda-11-7-0-download-archive
zlib dll安装: https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html#install-zlib-windows
手动安装pyopenjtalk: pip install -U pyopenjtalk --no-build-isolation
如果此命令未安装,请在继续之前安装以下库: cmake Cython
conda create -n polylangvits python=3.8conda activate polylangvitsgit clone https://github.com/ORI-Muchim/PolyLangVITS.git cd PolyLangVITSpip install -r requirements.txt将音频文件如下。
.mp3或.wav文件还可以。
您必须在扬声器文件夹的背面编写“ [语言代码]”。
PolyLangVITS
├────datasets
│ ├───speaker0[KO]
│ │ ├────1.mp3
│ │ └────1.wav
│ └───speaker1[JA]
│ │ ├───1.mp3
│ │ └───1.wav
│ ├───speaker2[EN]
│ │ ├────1.mp3
│ │ └────1.wav
│ ├───speaker3[ZH]
│ │ ├────1.mp3
│ │ └────1.wav
│ ├integral.py
│ └integral_low.py
│
├────vits
├────get_pretrained_model.py
├────inference.py
├────main_low.py
├────main_resume.py
├────main.py
├────Readme.md
└────requirements.txt
这只是一个例子,可以添加更多扬声器。
要启动此工具,请使用以下命令,替换{language},{model_name}和{sample_rate}用您的值:
python main.py {language} {model_name} {sample_rate}对于规格低的人(VRAM <12GB),请使用此代码:
python main_low.py {language} {model_name} {sample_rate}如果数据配置已完成并且要恢复培训,请输入此代码:
python main_resume.py {model_name}训练模型后,您可以使用以下命令来生成预测,以{model_name}和{model_step}的相应值替换:
python inference.py {model_name} {model_step}对于文本进行语音推断,请使用以下内容:
python inference-stt.py {model_name} {model_step}另外,您可以手动通过文本而无需编辑代码:
python inference-stt.py {model_name} {model_step} {text}有关更多信息,请参阅以下存储库: