GPT SoVITS Download - GPT SoVITS Quellcode Download

GPT SoVITS

AI-Quellcode

v2

Herunterladen

GPT-SoVits-Webui

Ein leistungsstarkes WEBE-SHOT-Sprachumwandlungen und Text-to-Speech-Webui.

Englisch |中文简体|日本語| 한국어 | Türkçe

Merkmale:

Null-Shot-TTS: Geben Sie eine 5-Sekunden-Stimmprobe ein und erleben Sie sofortige Text-zu-Sprache-Konvertierung.
Nur wenige TTs: Feinstimmen Sie das Modell mit nur 1 Minute Trainingsdaten für eine verbesserte Sprachähnlichkeit und Realismus.
Kreuzsprachiger Unterstützung: Inferenz in Sprachen, die sich vom Trainingsdatensatz unterscheiden, unterstützt derzeit Englisch, Japanisch, Koreanisch, Kantonesisch und Chinesisch.
Webui -Tools: Zu den integrierten Tools gehören die Trennung von Sprachbegleitungen, automatische Trainingssatzsegmentierung, chinesische ASR und Textkennzeichnung, die Anfänger beim Erstellen von Trainingsdatensätzen und GPT/SOVITS -Modellen unterstützen.

Schauen Sie sich unser Demo -Video hier an!

Unsichtbare Lautsprecher wenige Schuss-Feinabstimmungsdemo:

Wege.shot.fine.tuning.demo.mp4

Benutzerhandbuch: 简体中文 | Englisch

Installation

Für Benutzer in China können Sie hier klicken, um den Autodl Cloud Docker zu verwenden, um die volle Funktionalität online zu erleben.

Getestete Umgebungen

Python 3.9, Pytorch 2.0.1, Cuda 11
Python 3.10.13, Pytorch 2.1.2, CUDA 12.3
Python 3.9, Pytorch 2.2.2, macOS 14.4.1 (Apple Silicon)
Python 3.9, Pytorch 2.2.2, CPU -Geräte

Hinweis: Numba == 0,56,4 erfordert PY <3,11

Fenster

Wenn Sie ein Windows-Benutzer sind (getestet mit Win> = 10), können Sie das integrierte Paket herunterladen und auf Go-Webui.bat doppelklicken, um GPT-Sowits-Webui zu starten.

Benutzer in China können das Paket hier herunterladen.

Linux

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh

macos

HINWEIS: Die mit GPUs auf Macs ausgebildeten Modelle führen zu einer erheblichen Qualität im Vergleich zu denjenigen, die auf anderen Geräten geschult wurden. Daher verwenden wir stattdessen vorübergehend CPUs.

Installieren Sie Xcode-Befehlszeilen-Tools, indem Sie xcode-select --install ausführen.
Installieren Sie FFMPEG, indem Sie brew install ffmpeg ausführen.
Installieren Sie das Programm, indem Sie die folgenden Befehle ausführen:

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt

Manuell installieren

Installieren Sie FFMPEG

Conda -Benutzer

conda install ffmpeg

Ubuntu/Debian -Benutzer

sudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge ' ffmpeg<7 '

Windows -Benutzer

Laden Sie ffmpeg.exe und ffprobe.exe im gpt-sovits root herunter und platzieren Sie sie.

Installieren Sie Visual Studio 2017 (nur koreanische TTs)

MacOS -Benutzer

brew install ffmpeg

Abhängigkeiten installieren

pip install -r requirements.txt

Verwenden von Docker

Docker-compose.yaml-Konfiguration

In Bezug auf Bild -Tags: Aufgrund schneller Updates in der Codebasis und des langsamen Verpackungs- und Testbilders überprüfen Sie bitte Docker Hub auf die aktuell verpackten neuesten Bilder und wählen Sie gemäß Ihrer Situation aus oder bauen Sie alternativ lokal mit einer Dockerfile nach Ihren eigenen Anforderungen.
Umgebungsvariablen:

IS_HALF: Kontrolliert halb Präzision/doppelte Präzision. Dies ist normalerweise die Ursache, wenn der Inhalt unter den Verzeichnissen 4-CNHUBERT/5-WAV32K während des Schritts "SSL Extracting" nicht korrekt erzeugt wird. Passen Sie sich anhand Ihrer tatsächlichen Situation an True oder False an.

Volumes -Konfiguration ， Das Root -Verzeichnis der Anwendung im Container ist auf /Arbeitsbereich eingestellt. Die Standard-Docker-compose.yaml listet einige praktische Beispiele zum Hochladen/Herunterladen von Inhalten auf.
SHM_SIZE: Der Standard -verfügbare Speicher für Docker -Desktop unter Windows ist zu klein, was zu abnormalen Operationen führen kann. Passen Sie sich nach Ihrer eigenen Situation an.
Nach dem Abschnitt Bereitstellung sollten die GPU-bezogenen Einstellungen vorsichtig gemäß Ihrem System und den tatsächlichen Umständen angepasst werden.

Laufen mit Docker Compose

 docker compose -f "docker-compose.yaml" up -d

Laufen mit Docker -Befehl

Ändern Sie wie oben die entsprechenden Parameter basierend auf Ihrer tatsächlichen Situation und führen Sie den folgenden Befehl aus:

 docker run --rm -it --gpus=all --env=is_half=False --volume=G:GPT-SoVITS-DockerTestoutput:/workspace/output --volume=G:GPT-SoVITS-DockerTestlogs:/workspace/logs --volume=G:GPT-SoVITS-DockerTestSoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx

Vorbereitete Modelle

Benutzer in China können hier alle diese Modelle herunterladen.

Laden Sie vor pressierte Modelle aus GPT-SoVits-Modellen herunter und platzieren Sie sie in GPT_SoVITS/pretrained_models .
Laden Sie G2PW -Modelle von G2PWModel_1.1.zip, unzip und benennen Sie G2PWModel herunter und platzieren Sie sie dann in GPT_SoVITS/text . (Nur chinesische TTs)
Für UVR5 (Vocals/Begleittrennung & Nachhallentfernung zusätzlich) laden Sie Modelle von UVR5 -Gewichten herunter und platzieren Sie sie in tools/uvr5/uvr5_weights .
Laden Sie für chinesische ASR (zusätzlich) Modelle vom Damo ASR -Modell, dem Damo VAD -Modell und dem Damo -Punc -Modell herunter und platzieren Sie sie in tools/asr/models .
Laden Sie für englische oder japanische ASR (zusätzlich) Modelle von einem schnelleren Flüstern großer V3 herunter und platzieren Sie sie in tools/asr/models . Außerdem können andere Modelle einen ähnlichen Effekt mit kleinerem Festplatten -Fußabdruck haben.

Datensatzformat

Das TTS -Annotation. List -Dateiformat:

 vocal_path|speaker_name|language|text

Sprachwörterbuch:

'Zh': Chinesisch
'Ja': Japanisch
'en': Englisch
'Ko': Koreanisch
'Yue': Kantonesisch

Beispiel:

 D:GPT-SoVITSxxx/xxx.wav|xxx|en|I like playing Genshin.

Finetune und Inferenz

Öffnen Sie Webui

Integrierte Paketbenutzer

Doppelklicken go-webui-v1.ps1 go-webui.bat go-webui-v1.bat go-webui.ps1

Andere

python webui.py < language(optional) >

Wenn Sie zu V1 wechseln möchten, dann

python webui.py v1 < language(optional) >

Oder maunal maunally -Version in Webui wechseln

Finetune

PATH AUTO FILLING wird jetzt unterstützt

 1.Fill in the audio path

 2.Slice the audio into small chunks

 3.Denoise(optinal)

 4.ASR

 5.Proofreading ASR transcriptions

 6.Go to the next Tab, then finetune the model

Öffnen Sie Inferenz Webui

Integrierte Paketbenutzer

Doppelklicken Sie 1-GPT-SoVITS-TTS/1C-inference go-webui-v2.bat go-webui-v2.ps1 verwenden

Andere

python GPT_SoVITS/inference_webui.py < language(optional) >

ODER

python webui.py

Öffnen Sie dann das Inferenz-Webui unter 1-GPT-SoVITS-TTS/1C-inference

V2 -Versionsnotizen

Neue Funktionen:

Unterstützen Sie Koreanisch und Kantonesisch
Ein optimiertes Textfrontend
Vorausgebildeter Modell verlängerte sich von 2K Stunden auf 5 km Stunden
Verbesserte Synthesequalität für minderwertige Referenz-Audio
Weitere Details

Verwenden Sie V2 aus der V1 -Umgebung:

pip install -r requirements.txt , um einige Pakete zu aktualisieren
Klonen Sie die neuesten Codes von Github.
Laden Sie V2 vor pretrainierte Modelle von Sugging Face herunter und geben Sie sie in GPT_SoVITSpretrained_modelsgsv-v2final-pretrained .
Chinesische V2 zusätzlich: G2PWModel_1.1.zip （G2PW -Modelle herunterladen, entpacken und in G2PWModel umbenennen und dann in GPT_SoVITS/text platzieren.

TODO -Liste

(Zusätzliche) Methode zum Ausführen aus der Befehlszeile

Verwenden Sie die Befehlszeile, um das Webui für UVR5 zu öffnen

 python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>

So wird die Audiosegmentierung des Datensatzes mit der Befehlszeile durchgeführt

 python audio_slicer.py 
    --input_path "<path_to_original_audio_file_or_directory>" 
    --output_root "<directory_where_subdivided_audio_clips_will_be_saved>" 
    --threshold <volume_threshold> 
    --min_length <minimum_duration_of_each_subclip> 
    --min_interval <shortest_time_gap_between_adjacent_subclips> 
    --hop_size <step_size_for_computing_volume_curve>

So wird die ASR -Verarbeitung von Datensatz mit der Befehlszeile (nur Chinesisch) durchgeführt.

 python tools/asr/funasr_asr.py -i <input> -o <output>

Die ASR -Verarbeitung wird durch faser_whisper durchgeführt (ASR -Markierung außer Chinesen)

(Keine Fortschrittsbalken, GPU -Leistung kann zu Zeitverzögerungen führen)

 python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p <precision>

Eine benutzerdefinierte Liste speichern Pfad ist aktiviert

Credits

Besonderer Dank geht an die folgenden Projekte und Mitwirkenden:

Theoretische Forschung

ar-vits
Soundstorming
Vits
Übertragungen
ContentVec
Hifi-Gan
Fischrede

Vorbereitete Modelle

Chinesische Sprache Pretrain
Chinese-Roberta-wwm-text-large

Textfrontend für Inferenz

PaddleSpeech Zh_Normalisierung
Langsegment
g2pw
pypinyin-g2pw
Paddlespeech G2PW

Webui -Tools

UltimateVocalRemOverGui
Audio-Klima
Subfix
Ffmpeg
Gradio
schneller-Whisper
Funasr

Dankbar bei @Naozumi520 für die Bereitstellung des kantonesischen Trainingssatzes und für die Anleitung zum kantonesisch bezogenen Wissen.

Vielen Dank an alle Mitwirkenden für ihre Bemühungen

Expandieren

Zusätzliche Informationen

Version v2
Typ AI-Quellcode
Aktualisierungszeit 2025-08-19
Größe 6.11MB
Kommt von Github

Ähnliche Anwendungen

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Die neueste Version von GPT-Film und Fernsehen

2023-10-30