英語|中文简体|日本語| 한국어 | Türkçe
ゼロショットTTS: 5秒のボーカルサンプルを入力し、インスタントテキストからスピーチへの変換を体験します。
少数のショットTTS:音声の類似性とリアリズムを改善するために、わずか1分間のトレーニングデータでモデルを微調整します。
言語的サポート:現在英語、日本、韓国語、広東語、中国語をサポートしているトレーニングデータセットとは異なる言語の推論。
WebUIツール:統合ツールには、音声伴奏の分離、自動トレーニングセットセグメンテーション、中国のASR、およびテキストラベルが含まれ、初心者がトレーニングデータセットとGPT/SOVITSモデルの作成を支援します。
こちらのデモビデオをご覧ください!
目に見えないスピーカー少数の微調整デモ:
ユーザーガイド:简体中文|英語
中国のユーザーについては、ここをクリックしてAutoDL Cloud Dockerを使用して、オンラインで完全な機能を体験できます。
注:numba == 0.56.4にはpy <3.11が必要です
Windowsユーザーの場合(Win> = 10でテスト)、統合されたパッケージをダウンロードして、 go-Webui.batをダブルクリックしてGPT-Sovits-Webuiを開始できます。
中国のユーザーはここでパッケージをダウンロードできます。
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh注:MACでGPUでトレーニングされたモデルは、他のデバイスでトレーニングされたデバイスでトレーニングされたモデルと比較して大幅に低品質になるため、代わりにCPUを一時的に使用しています。
xcode-select --installインストールを実行して、Xcodeコマンドラインツールをインストールします。brew install ffmpeg 。conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txtconda install ffmpegsudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 ' gpt-sovitsルートにffmpeg.exeとffprobe.exeをダウンロードして配置します。
Visual Studio 2017(韓国TTSのみ)をインストールする
brew install ffmpegpip install -r requirements.txt docker compose -f "docker-compose.yaml" up -d
上記のように、実際の状況に基づいて対応するパラメーターを変更して、次のコマンドを実行します。
docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx
中国のユーザーは、ここでこれらすべてのモデルをダウンロードできます。
GPT-Sovitsモデルから前提型モデルをダウンロードし、 GPT_SoVITS/pretrained_modelsに配置します。
g2pwmodel_1.1.zipからg2pwモデルをダウンロードして、 G2PWModelに変更し、 GPT_SoVITS/textに配置します。(中国のttsのみ)
UVR5(ボーカル/伴奏の分離と残響除去、さらに)の場合、UVR5の重みからモデルをダウンロードし、 tools/uvr5/uvr5_weightsに配置します。
中国のASR(追加)の場合、Damo ASRモデル、Damo VADモデル、Damo Puncモデルからモデルをダウンロードし、それらをtools/asr/modelsに配置します。
英語または日本のASR(追加)の場合は、より高速なWhisper Large V3からモデルをダウンロードし、 tools/asr/modelsに配置します。また、他のモデルは、ディスクフットプリントが小さく、同様の効果がある場合があります。
TTS Annotation .Listファイル形式:
vocal_path|speaker_name|language|text
言語辞書:
例:
D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.
go-webui.batダブルクリックするか、 go-webui.ps1を使用してV1に切り替える場合は、 go-webui-v1.batダブルクリックするか、 go-webui-v1.ps1を使用します
python webui.py < language(optional) >V1に切り替えたい場合は、
python webui.py v1 < language(optional) >または、webuiのmaunally switchバージョン
1.Fill in the audio path
2.Slice the audio into small chunks
3.Denoise(optinal)
4.ASR
5.Proofreading ASR transcriptions
6.Go to the next Tab, then finetune the model
go-webui-v2.batをダブルクリックするか、 go-webui-v2.ps1を使用してから、 1-GPT-SoVITS-TTS/1C-inferenceで推論webuiを開きます
python GPT_SoVITS/inference_webui.py < language(optional) >または
python webui.py次に、 1-GPT-SoVITS-TTS/1C-inferenceで推論WebUIを開きます
新機能:
韓国語と広東語をサポートします
最適化されたテキストフロントエンド
事前に訓練されたモデルは、2k時間から5k時間まで延長されました
低品質の参照オーディオの合成品質の向上
詳細
V1環境からV2を使用します。
pip install -r requirements.txtいくつかのパッケージを更新します
Githubの最新コードをクローンします。
huggingfaceからV2の前提型モデルをダウンロードして、それらをGPT_SoVITSpretrained_modelsgsv-v2final-pretrainedに入れます。
中国のV2追加:g2pwmodel_1.1.zip(g2pwモデルをダウンロードし、 G2PWModelに変更して変更してから、 GPT_SoVITS/textに配置します。
優先度が高い:
特徴:
コマンドラインを使用して、UVR5のWebUIを開きます
python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>
これは、データセットのオーディオセグメンテーションがコマンドラインを使用して行われる方法です
python audio_slicer.py
--input_path "<path_to_original_audio_file_or_directory>"
--output_root "<directory_where_subdivided_audio_clips_will_be_saved>"
--threshold <volume_threshold>
--min_length <minimum_duration_of_each_subclip>
--min_interval <shortest_time_gap_between_adjacent_subclips>
--hop_size <step_size_for_computing_volume_curve>
これは、コマンドライン(中国語のみ)を使用してデータセットASR処理が行われる方法です
python tools/asr/funasr_asr.py -i <input> -o <output>
ASR処理はfaster_whisper(中国語を除くASRマーキング)によって実行されます
(進行状況バーなし、GPUのパフォーマンスは時間の遅延を引き起こす可能性があります)
python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>
カスタムリスト保存パスが有効になります
次のプロジェクトと貢献者に感謝します:
広東語のトレーニングセットを提供し、広東語関連の知識に関するガイダンスに感謝します。