GPT SoVITS下載 - GPT SoVITS源代碼下載

GPT SoVITS

Ai源碼

v2

下載

gpt-webui

強大的幾聲語音轉換和文本到語音webui。

英語|中文簡體|日本語| 한국어 | Türkçe

特徵：

零擊中TT：輸入5秒的聲音樣本，並體驗即時文本到語音轉換。
幾乎沒有射擊的TT：微調模型，只需1分鐘的訓練數據即可改善語音相似性和現實主義。
跨語性支持：與培訓數據集不同的語言推斷，目前支持英語，日語，韓語，廣東話和中文。
WebUI工具：集成工具包括語音伴奏分離，自動培訓集細分，中文ASR和文本標籤，協助初學者創建培訓數據集和GPT/Sovits模型。

在這裡查看我們的演示視頻！

看不見的揚聲器很少射擊微調演示：

少數shot.fine.tuning.demo.mp4

用戶指南：簡體中文|英語

安裝

對於中國的用戶，您可以單擊此處使用AutoDL Cloud Docker在線體驗完整的功能。

經過測試的環境

Python 3.9，Pytorch 2.0.1，CUDA 11
Python 3.10.13，Pytorch 2.1.2，Cuda 12.3
Python 3.9，Pytorch 2.2.2，MacOS 14.4.1（蘋果矽）
Python 3.9，Pytorch 2.2.2，CPU設備

注意：numba == 0.56.4需要py <3.11

視窗

如果您是Windows用戶（通過WIN> = 10進行測試），則可以在go-webui.bat上下載集成軟件包，並雙擊以啟動GPT-Sovits-Webui。

中國用戶可以在此處下載包裹。

Linux

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh

macos

注意：與在其他設備上訓練的模型相比，在MAC上接受GPU訓練的模型導致質量明顯降低，因此我們暫時使用CPU。

通過運行xcode-select --install安裝XCode命令行工具。
通過運行brew install ffmpeg 。
通過運行以下命令來安裝程序：

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt

手動安裝

安裝FFMPEG

康達用戶

conda install ffmpeg

Ubuntu/Debian用戶

sudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 '

Windows用戶

下載並將ffmpeg.exe和ffprobe.exe放在GPT-Sovits root中。

安裝Visual Studio 2017（僅韓語TTS）

MacOS用戶

brew install ffmpeg

安裝依賴

pip install -r requirements.txt

使用Docker

docker-compose.yaml配置

關於圖像標籤：由於代碼庫中的快速更新以及包裝和測試圖像的緩慢過程，請檢查Docker Hub以獲取當前包裝的最新圖像，並根據您的情況選擇，或者根據您自己的需要在本地構建。
環境變量：

IS_HALF：控制半精確/雙重精確。如果目錄下的內容4-CNHUBERT/5-WAV32K在“ SSL提取”步驟中未正確生成，則通常是原因。根據您的實際情況調整為True或fals。

卷配置，將容器內的應用程序的根目錄設置為 /工作區。默認Docker-compose.yaml列出了一些用於上傳/下載內容的實用示例。
SHM_SIZE：Windows上Docker桌面的默認可用內存太小，可能會導致異常操作。根據您自己的情況進行調整。
根據部署部分，應根據您的系統和實際情況謹慎調整與GPU相關的設置。

與Docker撰寫

 docker compose -f "docker-compose.yaml" up -d

使用Docker命令運行

如上所述，根據您的實際情況修改相應的參數，然後運行以下命令：

 docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx

預驗證的模型

中國的用戶可以在此處下載所有這些模型。

從GPT-Sovits型號下載預處理的型號，並將其放入GPT_SoVITS/pretrained_models中。
從G2PWModel_1.1.zip下載G2PW模型，UNZIP並重命名為G2PWModel ，然後將它們放入GPT_SoVITS/text中。（僅中文TTS）
對於UVR5（人聲/伴奏分離和刪除混響），從UVR5權重下載模型，然後將其放入tools/uvr5/uvr5_weights中。
對於中國ASR（另外），請從Damo ASR模型，Damo VAD模型和Damo Punc模型下載模型，然後將它們放入tools/asr/models中。
對於英語或日語ASR（另外），請從更快的竊竊私語中下載模型，然後將其放入tools/asr/models中。此外，其他型號可能具有較小的磁盤足跡具有相似的效果。

數據集格式

TTS註釋.LIST文件格式：

 vocal_path|speaker_name|language|text

語言詞典：

'ZH'：中文
'ja'：日語
'en'：英語
'ko'：韓文
'yue'：廣東話

例子：

 D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.

芬太納和推理

打開webui

集成的軟件包用戶

雙擊go-webui.bat或使用go-webui.ps1如果要切換到v1，則雙擊go-webui-v1.bat或使用go-webui-v1.ps1

其他的

python webui.py < language(optional) >

如果要切換到V1，則

python webui.py v1 < language(optional) >

或Webui中的Maunally Switch版本

Finetune

路徑自動填充現在得到支持

 1.Fill in the audio path

 2.Slice the audio into small chunks

 3.Denoise(optinal)

 4.ASR

 5.Proofreading ASR transcriptions

 6.Go to the next Tab, then finetune the model

打開推理webui

集成的軟件包用戶

雙擊go-webui-v2.bat或使用go-webui-v2.ps1 ，然後在1-GPT-SoVITS-TTS/1C-inference打開推理webUI

其他的

python GPT_SoVITS/inference_webui.py < language(optional) >

或者

python webui.py

然後在1-GPT-SoVITS-TTS/1C-inference打開推理webUI

V2發行說明

新功能：

支持韓語和廣東話
優化的文本前端
預先訓練的模型從2K小時延長到5K小時
提高低質量參考音頻的合成質量
更多細節

使用V1環境中的V2：

pip install -r requirements.txt更新一些軟件包
克隆Github的最新代碼。
從HuggingFace下載V2預估計的模型，然後將其放入GPT_SoVITSpretrained_modelsgsv-v2final-pretrained 。
中文V2附加：G2PWMODEL_1.1.ZIP（下載G2PW型號，UNZIP和RENAME至G2PWModel ，然後將它們放入GPT_SoVITS/text中。

待辦事項清單

（附加）從命令行運行的方法

使用命令行打開UVR5的WebUI

 python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>

這就是使用命令行完成數據集的音頻分割的方式

 python audio_slicer.py 
    --input_path "<path_to_original_audio_file_or_directory>" 
    --output_root "<directory_where_subdivided_audio_clips_will_be_saved>" 
    --threshold <volume_threshold> 
    --min_length <minimum_duration_of_each_subclip> 
    --min_interval <shortest_time_gap_between_adjacent_subclips> 
    --hop_size <step_size_for_computing_volume_curve>

這是使用命令行（僅中文）完成數據集ASR處理的方式

 python tools/asr/funasr_asr.py -i <input> -o <output>

ASR處理是通過更快的_whisper執行的（ASR標記除中文）

（沒有進度條，GPU性能可能會導致時間延遲）

 python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>

自定義列表保存路徑已啟用

學分

特別感謝以下項目和貢獻者：

理論研究

AR-Vits
Soundstorm
vits
Transfertts
ContentVec
hifi-gan
魚語

預驗證的模型

中國言語預告片
中國 - 羅伯塔wwm-ext-large

推理的文本前端

paddlespeech zh_normalization
lang部分
G2PW
ppypinyin-g2pw
PaddlesPeech G2PW

WebUI工具

UltimateVocalremovergui
音頻單位
子三
ffmpeg
Gradio
更快的呼聲
funasr

感謝 @Naozumi520提供廣東話訓練和有關廣東話相關的知識的指導。

感謝所有貢獻者的努力

展開

附加信息

版本 v2
類型 Ai源碼
更新時間 2025-08-19
大小 6.11MB
來自於 Github

相關應用

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GPT影視最新版

2023-10-30

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ML stack

Ai源碼

1.0.0
awesome free chatgpt

Ai源碼

1.0.0
pywin_contextmenu

Ai源碼

Version update
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部