XphoneBert_Vits2 Download - XphoneBert_Vits2 Quellcode herunterladen

XphoneBert_Vits2

AI-Quellcode

1.0.0

Herunterladen

Vits2 erweitert mit XphoneBert -Encoder

Credits

Dieses Repo basiert auf der großartigen Arbeit von Vits2 Repo und XphoneBert.

Voraussetzungen

Python> = 3.10
Getestet auf Pytorch Version 1.13.1 mit Google Colab und Lambdalabs Cloud.
Klonen Sie dieses Repository
Installieren Sie die Python -Anforderungen. Bitte beachten Sie die Anforderungen.txt
Datensätze herunterladen
1. Laden Sie den LJ -Sprachdatensatz herunter und extrahieren Sie sie und erstellen Sie dann einen Link zum Datensatzordner: ln -s /path/to/LJSpeech-1.1/wavs DUMMY
2. Hinweis: Dieses Repo unterstützte kein Schulungs-Multi-Sprecher-Datensatz
Verschieben/kopieren Sie Ihre .txt -Schulungs-, Validierungs- und Testendateien in das Verzeichnis filelisten und führen Sie die Precess.py -Datei (ähnlich wie für den LJSpeech -Datensatz aus, zum Beispiel aus):
- Weitere Informationen finden Sie in XphoneBert. Sie verwenden text2phonemesequence zum Umwandeln von Rohtext in Phonem -Sequenz.
- Initialisieren von text2phonemesequence für jede Sprache erfordert seinen entsprechenden ISO 639-3-Code. Die ISO 639-3-Codes unterstützter Sprachen finden Sie hier.
- text2phonemesequence nimmt eine wortsegmentierte Sequenz als Eingabe. Und Benutzer können auch eine Textnormalisierung in der Wortsegmentierten durchführen, bevor sie in text2phonemesequence eingespeist werden.

Hinweis: Für Sprachen wie Chinesen, Koreanisch, Japanisch (CJK -Sprachen) und einige südostasiatische Sprachen werden Wörter nicht durch Räume getrennt. Ein externer Tokenisierer muss verwendet werden, bevor Wörter in dieses Modell eingefügt werden. Schreiben Sie in diesem Fall ein Skript, um Ihre Eingabe zu normalisieren und zu segmentieren, bevor Sie an text2phonemesequence füttern (VIE_PREPROCESS.py ist in meinem Fall).

 # In Case languages, words are not separated by spaces such as Vietnamese.
python vie_preprocess.py --out_extension cleaned --filelists filelists/train.txt filelists/val.txt
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language vie-n --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language vie-n --batch_size 64 --cuda

# In Case languages English.
python preprocess.py --input_file filelists/train.txt.cleaned --output_file filelists/train.list --language eng-us --batch_size 64 --cuda
python preprocess.py --input_file filelists/val.txt.cleaned --output_file filelists/val.list --language eng-us --batch_size 64 --cuda

Erstellen Sie monotonische Ausrichtungssuche und führen Sie die Vorverarbeitung aus, wenn Sie Ihre eigenen Datensätze verwenden.

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace

Trainingsbeispiel

Weitere Informationen zur Konfiguration finden Sie in configs/config.json

 # LJ Speech
python train.py -c configs/config.json -m ljs_base

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ AI-Quellcode
Aktualisierungszeit 2025-08-22
Größe 24.62MB
Kommt von Github

Ähnliche Anwendungen

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Dog_Fox_Bunny

2022-08-01
Lihua Datenanalyse-Engine, kostenlose Version 3.0_search_navigation_collection_public Opinion_Ranking_api

2022-06-28

XphoneBert_Vits2

Vits2 erweitert mit XphoneBert -Encoder

Credits

Voraussetzungen

Trainingsbeispiel

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

zkwork_aleo_gpu_worker

nextcloud_share_url_downloader

Dog_Fox_Bunny

Lihua Datenanalyse-Engine, kostenlose Version 3.0_search_navigation_collection_public Opinion_Ranking_api

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express