英语|中文简体|日本语| 한국어 | Türkçe
零击中TT:输入5秒的声音样本,并体验即时文本到语音转换。
几乎没有射击的TT:微调模型,只需1分钟的训练数据即可改善语音相似性和现实主义。
跨语性支持:与培训数据集不同的语言推断,目前支持英语,日语,韩语,广东话和中文。
WebUI工具:集成工具包括语音伴奏分离,自动培训集细分,中文ASR和文本标签,协助初学者创建培训数据集和GPT/Sovits模型。
在这里查看我们的演示视频!
看不见的扬声器很少射击微调演示:
用户指南:简体中文|英语
对于中国的用户,您可以单击此处使用AutoDL Cloud Docker在线体验完整的功能。
注意:numba == 0.56.4需要py <3.11
如果您是Windows用户(通过WIN> = 10进行测试),则可以在go-webui.bat上下载集成软件包,并双击以启动GPT-Sovits-Webui。
中国用户可以在此处下载包裹。
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh注意:与在其他设备上训练的模型相比,在MAC上接受GPU训练的模型导致质量明显降低,因此我们暂时使用CPU。
xcode-select --install安装XCode命令行工具。brew install ffmpeg 。conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txtconda install ffmpegsudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 ' 下载并将ffmpeg.exe和ffprobe.exe放在GPT-Sovits root中。
安装Visual Studio 2017(仅韩语TTS)
brew install ffmpegpip install -r requirements.txt docker compose -f "docker-compose.yaml" up -d
如上所述,根据您的实际情况修改相应的参数,然后运行以下命令:
docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx
中国的用户可以在此处下载所有这些模型。
从GPT-Sovits型号下载预处理的型号,并将其放入GPT_SoVITS/pretrained_models中。
从G2PWModel_1.1.zip下载G2PW模型,UNZIP并重命名为G2PWModel ,然后将它们放入GPT_SoVITS/text中。(仅中文TTS)
对于UVR5(人声/伴奏分离和删除混响),从UVR5权重下载模型,然后将其放入tools/uvr5/uvr5_weights中。
对于中国ASR(另外),请从Damo ASR模型,Damo VAD模型和Damo Punc模型下载模型,然后将它们放入tools/asr/models中。
对于英语或日语ASR(另外),请从更快的窃窃私语中下载模型,然后将其放入tools/asr/models中。此外,其他型号可能具有较小的磁盘足迹具有相似的效果。
TTS注释.LIST文件格式:
vocal_path|speaker_name|language|text
语言词典:
例子:
D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.
双击go-webui.bat或使用go-webui.ps1如果要切换到v1,则双击go-webui-v1.bat或使用go-webui-v1.ps1
python webui.py < language(optional) >如果要切换到V1,则
python webui.py v1 < language(optional) >或Webui中的Maunally Switch版本
1.Fill in the audio path
2.Slice the audio into small chunks
3.Denoise(optinal)
4.ASR
5.Proofreading ASR transcriptions
6.Go to the next Tab, then finetune the model
双击go-webui-v2.bat或使用go-webui-v2.ps1 ,然后在1-GPT-SoVITS-TTS/1C-inference打开推理webUI
python GPT_SoVITS/inference_webui.py < language(optional) >或者
python webui.py然后在1-GPT-SoVITS-TTS/1C-inference打开推理webUI
新功能:
支持韩语和广东话
优化的文本前端
预先训练的模型从2K小时延长到5K小时
提高低质量参考音频的合成质量
更多细节
使用V1环境中的V2:
pip install -r requirements.txt更新一些软件包
克隆Github的最新代码。
从HuggingFace下载V2预估计的模型,然后将其放入GPT_SoVITSpretrained_modelsgsv-v2final-pretrained 。
中文V2附加:G2PWMODEL_1.1.ZIP(下载G2PW型号,UNZIP和RENAME至G2PWModel ,然后将它们放入GPT_SoVITS/text中。
高优先级:
特征:
使用命令行打开UVR5的WebUI
python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>
这就是使用命令行完成数据集的音频分割的方式
python audio_slicer.py
--input_path "<path_to_original_audio_file_or_directory>"
--output_root "<directory_where_subdivided_audio_clips_will_be_saved>"
--threshold <volume_threshold>
--min_length <minimum_duration_of_each_subclip>
--min_interval <shortest_time_gap_between_adjacent_subclips>
--hop_size <step_size_for_computing_volume_curve>
这是使用命令行(仅中文)完成数据集ASR处理的方式
python tools/asr/funasr_asr.py -i <input> -o <output>
ASR处理是通过更快的_whisper执行的(ASR标记除中文)
(没有进度条,GPU性能可能会导致时间延迟)
python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>
自定义列表保存路径已启用
特别感谢以下项目和贡献者:
感谢 @Naozumi520提供广东话训练和有关广东话相关的知识的指导。