PolyLangVITS Download - PolyLangVITS Quellcode Download

PolyLangVITS

AI-Quellcode

Pretrained_Models

Herunterladen

Polylangvits

Mehrsprachiger Sprachsynthesesystem mit Vits

Inhaltsverzeichnis

Voraussetzungen
Installation
Prepe_datasets
Verwendung
Schlussfolgerung
Referenzen

Voraussetzungen

Ein Windows/Linux -System mit mindestens 16GB RAM.
Eine GPU mit mindestens 12GB VRAM.
Python == 3,8
Anaconda installiert.
Pytorch installiert.
CUDA 11.x installiert.
ZLIB DLL installiert.

Befehl pytorch installieren:

pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117

CUDA 11.7 Install: https://developer.nvidia.com/cuda-11-7-0-download-archive

ZLIB DLL Installation: https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html#install-zlib-windows

Manuell installieren Sie Pyopenjtalk: pip install -U pyopenjtalk --no-build-isolation

Wenn dieser Befehl nicht installiert wird, installieren Sie bitte die folgende Bibliothek, bevor Sie fortfahren: cmake Cython

Installation

Erstellen Sie eine Anaconda -Umgebung:

conda create -n polylangvits python=3.8

Aktivieren Sie die Umgebung:

conda activate polylangvits

Klonen Sie dieses Repository in Ihre lokale Maschine:

git clone https://github.com/ORI-Muchim/PolyLangVITS.git

Navigieren Sie zum geklonten Verzeichnis:

 cd PolyLangVITS

Installieren Sie die erforderlichen Abhängigkeiten:

pip install -r requirements.txt

Prepe_datasets

Platzieren Sie die Audiodateien wie folgt.

.mp3 oder .wav -Dateien sind in Ordnung.

Sie müssen '[Sprachcode]' auf der Rückseite des Sprecherordners schreiben.

 PolyLangVITS
├────datasets
│       ├───speaker0[KO]
│       │   ├────1.mp3
│       │   └────1.wav
│       └───speaker1[JA]
│       │    ├───1.mp3
│       │    └───1.wav
│       ├───speaker2[EN]
│       │   ├────1.mp3
│       │   └────1.wav
│       ├───speaker3[ZH]
│       │   ├────1.mp3
│       │   └────1.wav
│       ├integral.py
│       └integral_low.py
│
├────vits
├────get_pretrained_model.py
├────inference.py
├────main_low.py
├────main_resume.py
├────main.py
├────Readme.md
└────requirements.txt

Dies ist nur ein Beispiel und es ist in Ordnung, weitere Lautsprecher hinzuzufügen.

Verwendung

Verwenden Sie den folgenden Befehl, um dieses Tool zu starten, und ersetzen Sie {Sprache}, {model_name} und {sample_rate} durch Ihre jeweiligen Werte:

python main.py {language} {model_name} {sample_rate}

Für diejenigen mit niedrigen Spezifikationen (VRAM <12 GB) verwenden Sie diesen Code bitte:

python main_low.py {language} {model_name} {sample_rate}

Wenn die Datenkonfiguration abgeschlossen ist und Sie das Training fortsetzen möchten, geben Sie diesen Code ein:

python main_resume.py {model_name}

Schlussfolgerung

Nachdem das Modell trainiert wurde, können Sie Vorhersagen mithilfe des folgenden Befehls generieren und {model_name} und {model_step} durch Ihre jeweiligen Werte ersetzen:

python inference.py {model_name} {model_step}

Verwenden Sie Folgendes für Text zu Sprachinferenz:

python inference-stt.py {model_name} {model_step}

Außerdem können Sie den Text manuell übergeben, ohne den Code zu bearbeiten, nach:

python inference-stt.py {model_name} {model_step} {text}

Referenzen

Weitere Informationen finden Sie unter folgenden Repositories:

Jaywalnut310/vits
Cjangcjengh/vits
Kyubyong/G2pk
Tenebo/G2PK2
Henrymass/Audioslicer

Expandieren

Zusätzliche Informationen

Version Pretrained_Models
Typ AI-Quellcode
Aktualisierungszeit 2025-09-14
Größe 31.98MB
Kommt von Github

Ähnliche Anwendungen

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

PolyLangVITS

Polylangvits

Inhaltsverzeichnis

Voraussetzungen

Installation

Prepe_datasets

Verwendung

Schlussfolgerung

Referenzen

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express