Englisch |中文简体|日本語| 한국어 | Türkçe
Null-Shot-TTS: Geben Sie eine 5-Sekunden-Stimmprobe ein und erleben Sie sofortige Text-zu-Sprache-Konvertierung.
Nur wenige TTs: Feinstimmen Sie das Modell mit nur 1 Minute Trainingsdaten für eine verbesserte Sprachähnlichkeit und Realismus.
Kreuzsprachiger Unterstützung: Inferenz in Sprachen, die sich vom Trainingsdatensatz unterscheiden, unterstützt derzeit Englisch, Japanisch, Koreanisch, Kantonesisch und Chinesisch.
Webui -Tools: Zu den integrierten Tools gehören die Trennung von Sprachbegleitungen, automatische Trainingssatzsegmentierung, chinesische ASR und Textkennzeichnung, die Anfänger beim Erstellen von Trainingsdatensätzen und GPT/SOVITS -Modellen unterstützen.
Schauen Sie sich unser Demo -Video hier an!
Unsichtbare Lautsprecher wenige Schuss-Feinabstimmungsdemo:
Benutzerhandbuch: 简体中文 | Englisch
Für Benutzer in China können Sie hier klicken, um den Autodl Cloud Docker zu verwenden, um die volle Funktionalität online zu erleben.
Hinweis: Numba == 0,56,4 erfordert PY <3,11
Wenn Sie ein Windows-Benutzer sind (getestet mit Win> = 10), können Sie das integrierte Paket herunterladen und auf Go-Webui.bat doppelklicken, um GPT-Sowits-Webui zu starten.
Benutzer in China können das Paket hier herunterladen.
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.shHINWEIS: Die mit GPUs auf Macs ausgebildeten Modelle führen zu einer erheblichen Qualität im Vergleich zu denjenigen, die auf anderen Geräten geschult wurden. Daher verwenden wir stattdessen vorübergehend CPUs.
xcode-select --install ausführen.brew install ffmpeg ausführen.conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txtconda install ffmpegsudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 ' Laden Sie ffmpeg.exe und ffprobe.exe im gpt-sovits root herunter und platzieren Sie sie.
Installieren Sie Visual Studio 2017 (nur koreanische TTs)
brew install ffmpegpip install -r requirements.txt docker compose -f "docker-compose.yaml" up -d
Ändern Sie wie oben die entsprechenden Parameter basierend auf Ihrer tatsächlichen Situation und führen Sie den folgenden Befehl aus:
docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx
Benutzer in China können hier alle diese Modelle herunterladen.
Laden Sie vor pressierte Modelle aus GPT-SoVits-Modellen herunter und platzieren Sie sie in GPT_SoVITS/pretrained_models .
Laden Sie G2PW -Modelle von G2PWModel_1.1.zip, unzip und benennen Sie G2PWModel herunter und platzieren Sie sie dann in GPT_SoVITS/text . (Nur chinesische TTs)
Für UVR5 (Vocals/Begleittrennung & Nachhallentfernung zusätzlich) laden Sie Modelle von UVR5 -Gewichten herunter und platzieren Sie sie in tools/uvr5/uvr5_weights .
Laden Sie für chinesische ASR (zusätzlich) Modelle vom Damo ASR -Modell, dem Damo VAD -Modell und dem Damo -Punc -Modell herunter und platzieren Sie sie in tools/asr/models .
Laden Sie für englische oder japanische ASR (zusätzlich) Modelle von einem schnelleren Flüstern großer V3 herunter und platzieren Sie sie in tools/asr/models . Außerdem können andere Modelle einen ähnlichen Effekt mit kleinerem Festplatten -Fußabdruck haben.
Das TTS -Annotation. List -Dateiformat:
vocal_path|speaker_name|language|text
Sprachwörterbuch:
Beispiel:
D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.
Doppelklicken go-webui-v1.ps1 go-webui.bat go-webui-v1.bat go-webui.ps1
python webui.py < language(optional) >Wenn Sie zu V1 wechseln möchten, dann
python webui.py v1 < language(optional) >Oder maunal maunally -Version in Webui wechseln
1.Fill in the audio path
2.Slice the audio into small chunks
3.Denoise(optinal)
4.ASR
5.Proofreading ASR transcriptions
6.Go to the next Tab, then finetune the model
Doppelklicken Sie 1-GPT-SoVITS-TTS/1C-inference go-webui-v2.bat go-webui-v2.ps1 verwenden
python GPT_SoVITS/inference_webui.py < language(optional) >ODER
python webui.py Öffnen Sie dann das Inferenz-Webui unter 1-GPT-SoVITS-TTS/1C-inference
Neue Funktionen:
Unterstützen Sie Koreanisch und Kantonesisch
Ein optimiertes Textfrontend
Vorausgebildeter Modell verlängerte sich von 2K Stunden auf 5 km Stunden
Verbesserte Synthesequalität für minderwertige Referenz-Audio
Weitere Details
Verwenden Sie V2 aus der V1 -Umgebung:
pip install -r requirements.txt , um einige Pakete zu aktualisieren
Klonen Sie die neuesten Codes von Github.
Laden Sie V2 vor pretrainierte Modelle von Sugging Face herunter und geben Sie sie in GPT_SoVITSpretrained_modelsgsv-v2final-pretrained .
Chinesische V2 zusätzlich: G2PWModel_1.1.zip (G2PW -Modelle herunterladen, entpacken und in G2PWModel umbenennen und dann in GPT_SoVITS/text platzieren.
Hohe Priorität:
Merkmale:
Verwenden Sie die Befehlszeile, um das Webui für UVR5 zu öffnen
python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>
So wird die Audiosegmentierung des Datensatzes mit der Befehlszeile durchgeführt
python audio_slicer.py
--input_path "<path_to_original_audio_file_or_directory>"
--output_root "<directory_where_subdivided_audio_clips_will_be_saved>"
--threshold <volume_threshold>
--min_length <minimum_duration_of_each_subclip>
--min_interval <shortest_time_gap_between_adjacent_subclips>
--hop_size <step_size_for_computing_volume_curve>
So wird die ASR -Verarbeitung von Datensatz mit der Befehlszeile (nur Chinesisch) durchgeführt.
python tools/asr/funasr_asr.py -i <input> -o <output>
Die ASR -Verarbeitung wird durch faser_whisper durchgeführt (ASR -Markierung außer Chinesen)
(Keine Fortschrittsbalken, GPU -Leistung kann zu Zeitverzögerungen führen)
python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>
Eine benutzerdefinierte Liste speichern Pfad ist aktiviert
Besonderer Dank geht an die folgenden Projekte und Mitwirkenden:
Dankbar bei @Naozumi520 für die Bereitstellung des kantonesischen Trainingssatzes und für die Anleitung zum kantonesisch bezogenen Wissen.