英語|中文簡體|日本語| 한국어 | Türkçe
零擊中TT:輸入5秒的聲音樣本,並體驗即時文本到語音轉換。
幾乎沒有射擊的TT:微調模型,只需1分鐘的訓練數據即可改善語音相似性和現實主義。
跨語性支持:與培訓數據集不同的語言推斷,目前支持英語,日語,韓語,廣東話和中文。
WebUI工具:集成工具包括語音伴奏分離,自動培訓集細分,中文ASR和文本標籤,協助初學者創建培訓數據集和GPT/Sovits模型。
在這裡查看我們的演示視頻!
看不見的揚聲器很少射擊微調演示:
用戶指南:簡體中文|英語
對於中國的用戶,您可以單擊此處使用AutoDL Cloud Docker在線體驗完整的功能。
注意:numba == 0.56.4需要py <3.11
如果您是Windows用戶(通過WIN> = 10進行測試),則可以在go-webui.bat上下載集成軟件包,並雙擊以啟動GPT-Sovits-Webui。
中國用戶可以在此處下載包裹。
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh注意:與在其他設備上訓練的模型相比,在MAC上接受GPU訓練的模型導致質量明顯降低,因此我們暫時使用CPU。
xcode-select --install安裝XCode命令行工具。brew install ffmpeg 。conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txtconda install ffmpegsudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 ' 下載並將ffmpeg.exe和ffprobe.exe放在GPT-Sovits root中。
安裝Visual Studio 2017(僅韓語TTS)
brew install ffmpegpip install -r requirements.txt docker compose -f "docker-compose.yaml" up -d
如上所述,根據您的實際情況修改相應的參數,然後運行以下命令:
docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx
中國的用戶可以在此處下載所有這些模型。
從GPT-Sovits型號下載預處理的型號,並將其放入GPT_SoVITS/pretrained_models中。
從G2PWModel_1.1.zip下載G2PW模型,UNZIP並重命名為G2PWModel ,然後將它們放入GPT_SoVITS/text中。 (僅中文TTS)
對於UVR5(人聲/伴奏分離和刪除混響),從UVR5權重下載模型,然後將其放入tools/uvr5/uvr5_weights中。
對於中國ASR(另外),請從Damo ASR模型,Damo VAD模型和Damo Punc模型下載模型,然後將它們放入tools/asr/models中。
對於英語或日語ASR(另外),請從更快的竊竊私語中下載模型,然後將其放入tools/asr/models中。此外,其他型號可能具有較小的磁盤足跡具有相似的效果。
TTS註釋.LIST文件格式:
vocal_path|speaker_name|language|text
語言詞典:
例子:
D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.
雙擊go-webui.bat或使用go-webui.ps1如果要切換到v1,則雙擊go-webui-v1.bat或使用go-webui-v1.ps1
python webui.py < language(optional) >如果要切換到V1,則
python webui.py v1 < language(optional) >或Webui中的Maunally Switch版本
1.Fill in the audio path
2.Slice the audio into small chunks
3.Denoise(optinal)
4.ASR
5.Proofreading ASR transcriptions
6.Go to the next Tab, then finetune the model
雙擊go-webui-v2.bat或使用go-webui-v2.ps1 ,然後在1-GPT-SoVITS-TTS/1C-inference打開推理webUI
python GPT_SoVITS/inference_webui.py < language(optional) >或者
python webui.py然後在1-GPT-SoVITS-TTS/1C-inference打開推理webUI
新功能:
支持韓語和廣東話
優化的文本前端
預先訓練的模型從2K小時延長到5K小時
提高低質量參考音頻的合成質量
更多細節
使用V1環境中的V2:
pip install -r requirements.txt更新一些軟件包
克隆Github的最新代碼。
從HuggingFace下載V2預估計的模型,然後將其放入GPT_SoVITSpretrained_modelsgsv-v2final-pretrained 。
中文V2附加:G2PWMODEL_1.1.ZIP(下載G2PW型號,UNZIP和RENAME至G2PWModel ,然後將它們放入GPT_SoVITS/text中。
高優先級:
特徵:
使用命令行打開UVR5的WebUI
python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>
這就是使用命令行完成數據集的音頻分割的方式
python audio_slicer.py
--input_path "<path_to_original_audio_file_or_directory>"
--output_root "<directory_where_subdivided_audio_clips_will_be_saved>"
--threshold <volume_threshold>
--min_length <minimum_duration_of_each_subclip>
--min_interval <shortest_time_gap_between_adjacent_subclips>
--hop_size <step_size_for_computing_volume_curve>
這是使用命令行(僅中文)完成數據集ASR處理的方式
python tools/asr/funasr_asr.py -i <input> -o <output>
ASR處理是通過更快的_whisper執行的(ASR標記除中文)
(沒有進度條,GPU性能可能會導致時間延遲)
python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>
自定義列表保存路徑已啟用
特別感謝以下項目和貢獻者:
感謝 @Naozumi520提供廣東話訓練和有關廣東話相關的知識的指導。