GPT SoVITS下载 - GPT SoVITS源代码下载

GPT SoVITS

Ai源码

v2

下载

gpt-webui

强大的几声语音转换和文本到语音webui。

英语|中文简体|日本语| 한국어 | Türkçe

特征：

零击中TT：输入5秒的声音样本，并体验即时文本到语音转换。
几乎没有射击的TT：微调模型，只需1分钟的训练数据即可改善语音相似性和现实主义。
跨语性支持：与培训数据集不同的语言推断，目前支持英语，日语，韩语，广东话和中文。
WebUI工具：集成工具包括语音伴奏分离，自动培训集细分，中文ASR和文本标签，协助初学者创建培训数据集和GPT/Sovits模型。

在这里查看我们的演示视频！

看不见的扬声器很少射击微调演示：

少数shot.fine.tuning.demo.mp4

用户指南：简体中文|英语

安装

对于中国的用户，您可以单击此处使用AutoDL Cloud Docker在线体验完整的功能。

经过测试的环境

Python 3.9，Pytorch 2.0.1，CUDA 11
Python 3.10.13，Pytorch 2.1.2，Cuda 12.3
Python 3.9，Pytorch 2.2.2，MacOS 14.4.1（苹果硅）
Python 3.9，Pytorch 2.2.2，CPU设备

注意：numba == 0.56.4需要py <3.11

视窗

如果您是Windows用户（通过WIN> = 10进行测试），则可以在go-webui.bat上下载集成软件包，并双击以启动GPT-Sovits-Webui。

中国用户可以在此处下载包裹。

Linux

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh

macos

注意：与在其他设备上训练的模型相比，在MAC上接受GPU训练的模型导致质量明显降低，因此我们暂时使用CPU。

通过运行xcode-select --install安装XCode命令行工具。
通过运行brew install ffmpeg 。
通过运行以下命令来安装程序：

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt

手动安装

安装FFMPEG

康达用户

conda install ffmpeg

Ubuntu/Debian用户

sudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 '

Windows用户

下载并将ffmpeg.exe和ffprobe.exe放在GPT-Sovits root中。

安装Visual Studio 2017（仅韩语TTS）

MacOS用户

brew install ffmpeg

安装依赖

pip install -r requirements.txt

使用Docker

docker-compose.yaml配置

关于图像标签：由于代码库中的快速更新以及包装和测试图像的缓慢过程，请检查Docker Hub以获取当前包装的最新图像，并根据您的情况选择，或者根据您自己的需要在本地构建。
环境变量：

IS_HALF：控制半精确/双重精确。如果目录下的内容4-CNHUBERT/5-WAV32K在“ SSL提取”步骤中未正确生成，则通常是原因。根据您的实际情况调整为True或fals。

卷配置，将容器内的应用程序的根目录设置为 /工作区。默认Docker-compose.yaml列出了一些用于上传/下载内容的实用示例。
SHM_SIZE：Windows上Docker桌面的默认可用内存太小，可能会导致异常操作。根据您自己的情况进行调整。
根据部署部分，应根据您的系统和实际情况谨慎调整与GPU相关的设置。

与Docker撰写

 docker compose -f "docker-compose.yaml" up -d

使用Docker命令运行

如上所述，根据您的实际情况修改相应的参数，然后运行以下命令：

 docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx

预验证的模型

中国的用户可以在此处下载所有这些模型。

从GPT-Sovits型号下载预处理的型号，并将其放入GPT_SoVITS/pretrained_models中。
从G2PWModel_1.1.zip下载G2PW模型，UNZIP并重命名为G2PWModel ，然后将它们放入GPT_SoVITS/text中。（仅中文TTS）
对于UVR5（人声/伴奏分离和删除混响），从UVR5权重下载模型，然后将其放入tools/uvr5/uvr5_weights中。
对于中国ASR（另外），请从Damo ASR模型，Damo VAD模型和Damo Punc模型下载模型，然后将它们放入tools/asr/models中。
对于英语或日语ASR（另外），请从更快的窃窃私语中下载模型，然后将其放入tools/asr/models中。此外，其他型号可能具有较小的磁盘足迹具有相似的效果。

数据集格式

TTS注释.LIST文件格式：

 vocal_path|speaker_name|language|text

语言词典：

'ZH'：中文
'ja'：日语
'en'：英语
'ko'：韩文
'yue'：广东话

例子：

 D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.

芬太纳和推理

打开webui

集成的软件包用户

双击go-webui.bat或使用go-webui.ps1如果要切换到v1，则双击go-webui-v1.bat或使用go-webui-v1.ps1

其他的

python webui.py < language(optional) >

如果要切换到V1，则

python webui.py v1 < language(optional) >

或Webui中的Maunally Switch版本

Finetune

路径自动填充现在得到支持

 1.Fill in the audio path

 2.Slice the audio into small chunks

 3.Denoise(optinal)

 4.ASR

 5.Proofreading ASR transcriptions

 6.Go to the next Tab, then finetune the model

打开推理webui

集成的软件包用户

双击go-webui-v2.bat或使用go-webui-v2.ps1 ，然后在1-GPT-SoVITS-TTS/1C-inference打开推理webUI

其他的

python GPT_SoVITS/inference_webui.py < language(optional) >

或者

python webui.py

然后在1-GPT-SoVITS-TTS/1C-inference打开推理webUI

V2发行说明

新功能：

支持韩语和广东话
优化的文本前端
预先训练的模型从2K小时延长到5K小时
提高低质量参考音频的合成质量
更多细节

使用V1环境中的V2：

pip install -r requirements.txt更新一些软件包
克隆Github的最新代码。
从HuggingFace下载V2预估计的模型，然后将其放入GPT_SoVITSpretrained_modelsgsv-v2final-pretrained 。
中文V2附加：G2PWMODEL_1.1.ZIP（下载G2PW型号，UNZIP和RENAME至G2PWModel ，然后将它们放入GPT_SoVITS/text中。

待办事项清单

（附加）从命令行运行的方法

使用命令行打开UVR5的WebUI

 python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>

这就是使用命令行完成数据集的音频分割的方式

 python audio_slicer.py 
    --input_path "<path_to_original_audio_file_or_directory>" 
    --output_root "<directory_where_subdivided_audio_clips_will_be_saved>" 
    --threshold <volume_threshold> 
    --min_length <minimum_duration_of_each_subclip> 
    --min_interval <shortest_time_gap_between_adjacent_subclips> 
    --hop_size <step_size_for_computing_volume_curve>

这是使用命令行（仅中文）完成数据集ASR处理的方式

 python tools/asr/funasr_asr.py -i <input> -o <output>

ASR处理是通过更快的_whisper执行的（ASR标记除中文）

（没有进度条，GPU性能可能会导致时间延迟）

 python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>

自定义列表保存路径已启用

学分

特别感谢以下项目和贡献者：

理论研究

AR-Vits
Soundstorm
vits
Transfertts
ContentVec
hifi-gan
鱼语

预验证的模型

中国言语预告片
中国 - 罗伯塔wwm-ext-large

推理的文本前端

paddlespeech zh_normalization
lang部分
G2PW
ppypinyin-g2pw
PaddlesPeech G2PW

WebUI工具

UltimateVocalremovergui
音频单位
子三
ffmpeg
Gradio
更快的呼声
funasr

感谢 @Naozumi520提供广东话训练和有关广东话相关的知识的指导。

感谢所有贡献者的努力

展开

附加信息

版本 v2
类型 Ai源码
更新时间 2025-08-19
大小 6.11MB
来自于 Github