xtts webui Download - xtts webui Quellcode Download

xtts webui

AI-Quellcode

Deepspeed wheels for Windows

Herunterladen

XTS-Webui

Tragbare Version

Das Projekt verfügt jetzt über eine tragbare Version, sodass Sie sich nicht die Mühe machen müssen, alle Abhängigkeiten zu installieren.

Klicken Sie hier, um herunterzuladen

Sie brauchen nichts anderes als Windows und eine NVIDIA -Grafikkarte mit 6 GB Videospeicher, um sie auszuführen.

Der Zug der Zug ist kaputt. Wenn Sie ein Modell trainieren möchten, verwenden Sie ein separates Webui

XTS-Finetune-Webui

Readme ist in den folgenden Sprachen verfügbar

Englisch

Russisch

Português

Über das Projekt

XTTS-Webui ist eine Weboberfläche, mit der Sie das Beste aus XTTs nutzen können. Es gibt andere neuronale Netzwerke in dieser Oberfläche, die Ihre Ergebnisse verbessern. Sie können das Modell auch einstellen und ein hochwertiges Sprachmodell erhalten.

Bild

Schlüsselmerkmale

Einfache Arbeit mit XTTSV2
Stapelverarbeitung zum Synchronisieren einer großen Anzahl von Dateien
Fähigkeit, Audio mit Sprachsparen zu übersetzen
Fähigkeit, die Ergebnisse mithilfe neuronaler Netzwerke und Audio -Tools automatisch zu verbessern
Fähigkeit, das Modell zu optimieren und es sofort zu verwenden
Fähigkeit, Tools wie: RVC , OpenVoice , ähneln zu verbessern, sowohl zusammen als auch separat verstärken
Fähigkeit, die Erzeugung von XTTs, alle Parameter, mehrere sprechende Stichproben anzupassen

Todo

Fügen Sie eine Statusleiste mit Fortschritts- und Fehlerinformationen hinzu
Integrieren Sie das Training in die Standardschnittstelle
Fügen Sie die Fähigkeit hinzu, zu streamen, um das Ergebnis zu überprüfen
Fügen Sie eine neue Möglichkeit hinzu, Text für Voice -Over zu verarbeiten
Fügen Sie die Möglichkeit hinzu, die Lautsprecher bei der Batch -Verarbeitung anzupassen
API hinzufügen

Installation

Verwenden Sie diese Web -Benutzeroberfläche über Google Colab

Bitte stellen Sie sicher

1 Methode durch Skripte

Fenster

Um loszulegen:

Führen Sie die Datei 'install.bat' aus
Um die Web -Benutzeroberfläche zu starten, führen Sie 'start_xtts_webui.bat' aus 'aus.
Öffnen Sie Ihren bevorzugten Browser und gehen Sie zu der in der Konsole angezeigten lokalen Adresse.

Linux

Um loszulegen:

Führen Sie die Datei 'install.sh' aus
Um die Web -Benutzeroberfläche zu starten, führen Sie 'start_xtts_webui.sh' aus 'aus.
Öffnen Sie Ihren bevorzugten Browser und gehen Sie zu der in der Konsole angezeigten lokalen Adresse.

2 Methode, Handbuch

Befolgen Sie diese Schritte zur Installation:

Stellen Sie sicher, dass CUDA installiert ist
Klon das Repository: git clone https://github.com/daswer123/xtts-webui
Navigieren Sie in das Verzeichnis: cd xtts-webui
Erstellen Sie eine virtuelle Umgebung: python -m venv venv
Aktivieren Sie die virtuelle Umgebung:
- Unter Windows verwenden: venvscriptsactivate
- Unter Linux -Verwendung: source venvbinactivate
Installieren Sie Pytorch und Torchaudio mit PIP -Befehl:
pip install torch==2.1.1+cu118 torchaudio==2.1.1+cu118 --index-url https://download.pytorch.org/whl/cu118
Installieren Sie alle Abhängigkeiten von Anforderungen.txt:
pip install -r requirements.txt

Ausführen der Anwendung

Um die Schnittstelle zu starten, befolgen Sie bitte die folgenden Schritte:

XTTS Webui starten:

Aktivieren Sie Ihre virtuelle Umgebung:

venv/scripts/activate

oder wenn Sie unter Linux sind,

 source venv/bin/activate

Starten Sie dann das Webui für XTTs, indem Sie diesen Befehl ausführen:

python app.py

Hier sind einige Laufzeitargumente, die beim Starten der Anwendung verwendet werden können:

Argument	Standardwert	Beschreibung
-hs, -Host	127.0.0.1	Der Wirt zu binden an zu binden
-p, --port	8010	Die Portnummer zum Anhören
-d, -Gerät	CUDA	Welches Gerät zu verwenden (CPU oder CUDA)
-sf,-LEACHER_FOLDER	Sprecher/	Verzeichnis mit TTS -Proben
-O,-Ausgabe	"Ausgabe/"	Ausgabeverzeichnis
-l,-Sprache	"Auto"	In Webui -Sprache können Sie die verfügbaren Übersetzungen im Ordner i18n/Gebietsschema sehen.
-Ms,-Modell-Source	"Lokal"	Definieren Sie die Modellquelle: 'API' für die neueste Version aus Repository, API -Inferenz oder „Lokal“ zur Verwendung lokaler Inferenz und Modell v2.0.2
-v, -version	"v2.0.2"	Sie können angeben, welche Version von XTTs verwendet werden soll. Sie können den Namen des benutzerdefinierten Modells für diesen Zweck angeben. Stellen Sie den Ordner in Modelle ein und geben Sie den Namen des Ordners in diesem Flag an
-Lowvram		Aktivieren Sie den niedrigen VRAM -Modus, der das Modell auf RAM umschaltet, wenn sie nicht aktiv verarbeitet
-Deepspeed		Aktivieren Sie die Beschleunigung der Deepspeed. Funktioniert unter Windows unter Python 3.10 und 3.11
--Aktie		Ermöglicht die gemeinsame Nutzung der Schnittstelle außerhalb des lokalen Computers
-RVC		Aktivieren Sie die RVC-Nachbearbeitung. Alle Modelle sollten im RVC-Ordner lokalisieren

TTS -> RVC

Modul für RVC können Sie das RVC -Modul ermöglichen, das empfangene Audio dafür nachzuprobieren

Damit das Modell in RVC -Einstellungen funktioniert, müssen Sie ein Modell auswählen, das Sie zuerst in den Ordner Voice2Voice/RVC hochladen müssen. Das Modell und die Indexdatei müssen zusammen sein. Die Indexdatei ist optional. Jedes Modell muss sich in einem separaten Ordner befinden.

Unterschiede zwischen XTTS-Webui und dem offiziellen Webui

Datenverarbeitung

Schneller auf 0,10.0 aktualisiert, um ein größeres V3-Modell auszuwählen.
Ausgangsordner in den Ausgangsordner im Hauptordner geändert.
Wenn im Ausgabeordner bereits ein Datensatz vorhanden ist und Sie neue Daten hinzufügen möchten, können Sie dies tun, indem Sie einfach neues Audio hinzufügen. Was wurde nicht erneut verarbeitet und die neuen Daten werden automatisch hinzugefügt
VAD -Filter einschalten
Nachdem der Datensatz erstellt wurde, wird eine Datei erstellt, die die Sprache des Datensatzes angibt. Diese Datei wird vor dem Training gelesen, damit die Sprache immer übereinstimmt. Es ist bequem, wenn Sie die Schnittstelle neu starten

Feinabstimmung XTTS-Encoder

Die Möglichkeit hinzugefügt, das Basismodell für XTTs auszuwählen, und wenn Sie erneut ausführen, muss das Modell nicht erneut heruntergeladen werden.
Die Möglichkeit, das benutzerdefinierte Modell als Basismodell während des Trainings auszuwählen, wodurch ein Finetune -Modell bereits ein Finetune -Modell ermöglicht wird.
Es wurde die Möglichkeit hinzugefügt, um eine optimierte Version des Modells für 1 Klick zu erhalten (Schritt 2.5, optimierte Version in den Ausgangsordner).
Sie können auswählen, ob Sie Trainingsordner löschen möchten, nachdem Sie das Modell optimiert haben
Wenn Sie das Modell optimieren, wird das Beispielreferenz -Audio in den Ausgangsordner verschoben
Überprüfung auf Korrektheit der angegebenen Sprache und Datensatzsprache

Schlussfolgerung

Es wurde die Möglichkeit hinzugefügt, die InD -Einstellungen während der Modellprüfung anzupassen.

Andere

Wenn Sie die Schnittstelle in einem der Schritte versehentlich neu starten, können Sie Daten auf zusätzliche Schaltflächen laden
Entfernte die Anzeige von Protokollen, da sie beim Neustart Probleme verursachten
Das fertige Ergebnis wird in den Ready -Ordner kopiert. Dies sind vollständig fertige Dateien. Sie können sie überall verschieben und als Standardmodell verwenden
Unterstützung für Japanisch hier hinzugefügt

Expandieren

Zusätzliche Informationen