GPT SoVITSダウンロード-GPT GPT SoVITSソースコードのダウンロード

GPT SoVITS

AI ソースコード

v2

ダウンロード

gpt-sovits-webui

強力な少数の音声変換とテキストからスピーチへのWebUI。

英語|中文简体|日本語| 한국어 | Türkçe

特徴：

ゼロショットTTS： 5秒のボーカルサンプルを入力し、インスタントテキストからスピーチへの変換を体験します。
少数のショットTTS：音声の類似性とリアリズムを改善するために、わずか1分間のトレーニングデータでモデルを微調整します。
言語的サポート：現在英語、日本、韓国語、広東語、中国語をサポートしているトレーニングデータセットとは異なる言語の推論。
WebUIツール：統合ツールには、音声伴奏の分離、自動トレーニングセットセグメンテーション、中国のASR、およびテキストラベルが含まれ、初心者がトレーニングデータセットとGPT/SOVITSモデルの作成を支援します。

こちらのデモビデオをご覧ください！

目に見えないスピーカー少数の微調整デモ：

少数.shot.fine.tuning.demo.mp4

ユーザーガイド：简体中文|英語

インストール

中国のユーザーについては、ここをクリックしてAutoDL Cloud Dockerを使用して、オンラインで完全な機能を体験できます。

テスト済み環境

Python 3.9、Pytorch 2.0.1、Cuda 11
Python 3.10.13、Pytorch 2.1.2、Cuda 12.3
Python 3.9、Pytorch 2.2.2、Macos 14.4.1（Apple Silicon）
Python 3.9、Pytorch 2.2.2、CPUデバイス

注：numba == 0.56.4にはpy <3.11が必要です

Windows

Windowsユーザーの場合（Win> = 10でテスト）、統合されたパッケージをダウンロードして、 go-Webui.batをダブルクリックしてGPT-Sovits-Webuiを開始できます。

中国のユーザーはここでパッケージをダウンロードできます。

Linux

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh

macos

注：MACでGPUでトレーニングされたモデルは、他のデバイスでトレーニングされたデバイスでトレーニングされたモデルと比較して大幅に低品質になるため、代わりにCPUを一時的に使用しています。

xcode-select --installインストールを実行して、Xcodeコマンドラインツールをインストールします。
brew install ffmpeg 。
次のコマンドを実行してプログラムをインストールします。

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt

手動でインストールします

ffmpegをインストールします

コンドラユーザー

conda install ffmpeg

ubuntu/debianユーザー

sudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 '

Windowsユーザー

gpt-sovitsルートにffmpeg.exeとffprobe.exeをダウンロードして配置します。

Visual Studio 2017（韓国TTSのみ）をインストールする

MacOSユーザー

brew install ffmpeg

依存関係をインストールします

pip install -r requirements.txt

Dockerを使用します

docker-compose.yaml構成

画像タグについて：コードベースの迅速な更新とパッケージングとテスト画像のプロセスが遅いため、現在パッケージ化された最新画像のDocker Hubを確認し、状況に応じて選択するか、自分のニーズに応じてDockerFileを使用してローカルに構築してください。
環境変数：

IS_HALF：ハーフエシジョン/ダブルサイジョンを制御します。これは通常、ディレクトリ4-Cnhubert/5-WAV32Kの下のコンテンツが「SSL抽出」ステップ中に正しく生成されない場合の原因です。実際の状況に基づいて真または偽に調整します。

ボリューム構成、コンテナ内のアプリケーションのルートディレクトリは /ワークスペースに設定されています。デフォルトのdocker-compose.yamlには、コンテンツのアップロード/ダウンロードのためのいくつかの実用的な例がリストされています。
SHM_SIZE：Windows上のDockerデスクトップのデフォルトの使用可能なメモリは小さすぎるため、異常な操作を引き起こす可能性があります。自分の状況に従って調整してください。
展開セクションでは、GPU関連の設定は、システムと実際の状況に応じて慎重に調整する必要があります。

Docker Composeで実行

 docker compose -f "docker-compose.yaml" up -d

Dockerコマンドで実行されます

上記のように、実際の状況に基づいて対応するパラメーターを変更して、次のコマンドを実行します。

 docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx

前処理されたモデル

中国のユーザーは、ここでこれらすべてのモデルをダウンロードできます。

GPT-Sovitsモデルから前提型モデルをダウンロードし、 GPT_SoVITS/pretrained_modelsに配置します。
g2pwmodel_1.1.zipからg2pwモデルをダウンロードして、 G2PWModelに変更し、 GPT_SoVITS/textに配置します。（中国のttsのみ）
UVR5（ボーカル/伴奏の分離と残響除去、さらに）の場合、UVR5の重みからモデルをダウンロードし、 tools/uvr5/uvr5_weightsに配置します。
中国のASR（追加）の場合、Damo ASRモデル、Damo VADモデル、Damo Puncモデルからモデルをダウンロードし、それらをtools/asr/modelsに配置します。
英語または日本のASR（追加）の場合は、より高速なWhisper Large V3からモデルをダウンロードし、 tools/asr/modelsに配置します。また、他のモデルは、ディスクフットプリントが小さく、同様の効果がある場合があります。

データセット形式

TTS Annotation .Listファイル形式：

 vocal_path|speaker_name|language|text

言語辞書：

「Zh」：中国語
「JA」：日本語
「en」：英語
「KO」：韓国語
「Yue」：広東語

例：

 D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.

Finetuneおよび推論

WebUIを開きます

統合されたパッケージユーザー

go-webui.batダブルクリックするか、 go-webui.ps1を使用してV1に切り替える場合は、 go-webui-v1.batダブルクリックするか、 go-webui-v1.ps1を使用します

その他

python webui.py < language(optional) >

V1に切り替えたい場合は、

python webui.py v1 < language(optional) >

または、webuiのmaunally switchバージョン

微調整

Path Auto-Fillingがサポートされています

 1.Fill in the audio path

 2.Slice the audio into small chunks

 3.Denoise(optinal)

 4.ASR

 5.Proofreading ASR transcriptions

 6.Go to the next Tab, then finetune the model

開く推論webui

統合されたパッケージユーザー

go-webui-v2.batをダブルクリックするか、 go-webui-v2.ps1を使用してから、 1-GPT-SoVITS-TTS/1C-inferenceで推論webuiを開きます

その他

python GPT_SoVITS/inference_webui.py < language(optional) >

または

python webui.py

次に、 1-GPT-SoVITS-TTS/1C-inferenceで推論WebUIを開きます

V2リリースノート

新機能：

韓国語と広東語をサポートします
最適化されたテキストフロントエンド
事前に訓練されたモデルは、2k時間から5k時間まで延長されました
低品質の参照オーディオの合成品質の向上
詳細

V1環境からV2を使用します。

pip install -r requirements.txtいくつかのパッケージを更新します
Githubの最新コードをクローンします。
huggingfaceからV2の前提型モデルをダウンロードして、それらをGPT_SoVITSpretrained_modelsgsv-v2final-pretrainedに入れます。
中国のV2追加：g2pwmodel_1.1.zip（g2pwモデルをダウンロードし、 G2PWModelに変更して変更してから、 GPT_SoVITS/textに配置します。

TODOリスト

（追加）コマンドラインから実行する方法

コマンドラインを使用して、UVR5のWebUIを開きます

 python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>

これは、データセットのオーディオセグメンテーションがコマンドラインを使用して行われる方法です

 python audio_slicer.py 
    --input_path "<path_to_original_audio_file_or_directory>" 
    --output_root "<directory_where_subdivided_audio_clips_will_be_saved>" 
    --threshold <volume_threshold> 
    --min_length <minimum_duration_of_each_subclip> 
    --min_interval <shortest_time_gap_between_adjacent_subclips> 
    --hop_size <step_size_for_computing_volume_curve>

これは、コマンドライン（中国語のみ）を使用してデータセットASR処理が行われる方法です

 python tools/asr/funasr_asr.py -i <input> -o <output>

ASR処理はfaster_whisper（中国語を除くASRマーキング）によって実行されます

（進行状況バーなし、GPUのパフォーマンスは時間の遅延を引き起こす可能性があります）

 python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>

カスタムリスト保存パスが有効になります

クレジット

次のプロジェクトと貢献者に感謝します：

理論的研究

ar-vits
サウンドストーム
vits
transftts
contentvec
hifi-gan
魚のスピーチ

前処理されたモデル

中国の音声前
中国 - ロベルタ-WWM-Ext-Large

推論のためのテキストフロントエンド

paddlespeech zh_normalization
ラングセグメント
G2PW
Pypinyin-G2pw
paddlespeech g2pw

WebUIツール

ultimatevocalRemovergui
オーディオスライサー
subfix
ffmpeg
グラデーション
より速いウィスパー
funasr

広東語のトレーニングセットを提供し、広東語関連の知識に関するガイダンスに感謝します。

すべての貢献者の努力に感謝します

拡大する

追加情報

バージョン v2
タイプ AI ソースコード
更新時間 2025-08-19
サイズ 6.11MB
から Github