One Click VITS Training Download - One Click VITS Training Code source Télécharger

One Click VITS Training

Code Source AI

1.0.0

Télécharger

En un clic-vits

Cet outil vous permet de terminer l'ensemble du processus des VITS (prétraitement des données + Whisper ASR + Prétraitement de texte + Config.json + formation, inférence) avec un clic!

Table des matières

Structure
Condition préalable
Installation
Préparent_datasets
Usage
Inférence
Changements
Références

Structure

Échantillon de sortie

Condition préalable

Un système Windows / Linux avec un minimum de 16GB de RAM.
Un GPU avec au moins 12GB de VRAM.
Python == 3,8
Anaconda installé.
Pytorch installé.
CUDA 11.x installé.
DLL ZLIB installé.

Commande d'installation de Pytorch:

pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117

CUDA 11.7 Installation: https://developer.nvidia.com/cuda-11-7-0-download-archive

ZLIB DLL Install: https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html#install-zlib-windows

Installer Pyopenjtalk manuellement: pip install -U pyopenjtalk --no-build-isolation

Installation

Créez un environnement Anaconda:

conda create -n one-click-vits python=3.8

Activez l'environnement:

conda activate one-click-vits

Clone ce référentiel à votre machine locale:

git clone https://github.com/ORI-Muchim/One-Click-VITS-Training.git

Accédez au répertoire cloné:

 cd One-Click-VITS-Training

Installez les dépendances nécessaires:

pip install -r requirements.txt

Préparent_datasets

Placez les fichiers audio comme suit.

Les fichiers .mp3 ou .wav sont corrects.

 One-Click-VITS-Training
├────datasets
│       ├───speaker0
│       │   ├────1.mp3
│       │   └────1.wav
│       └───speaker1
│       │    ├───1.mp3
│       │    └───1.wav
│       ├integral.py
│       └integral_low.py
│
├────vits
├────inference.py
├────main_low.py
├────main_resume.py
├────main.py
├────Readme.md
└────requirements.txt

Ce n'est qu'un exemple, et il est normal d'ajouter plus de haut-parleurs.

Usage

Pour démarrer cet outil, utilisez la commande suivante, en remplaçant {Language}, {Model_Name} et {Sample_rate} par vos valeurs respectives ({langage: ko, ja, en, zh} / {samptample_rate: 22050/44100}):

python main.py {language} {model_name} {sample_rate}

Pour ceux qui ont de faibles spécifications (VRAM <12 Go), veuillez utiliser ce code:

python main_low.py {language} {model_name} {sample_rate}

Si la configuration des données est terminée et que vous souhaitez reprendre la formation, entrez ce code:

python main_resume.py {model_name}

Inférence

Une fois le modèle formé, vous pouvez générer des prédictions en utilisant la commande suivante, en remplaçant {Model_name} et {Model_step} par vos valeurs respectives:

python inference.py {model_name} {model_step}

Ou vérifiez ./vits/inference.ipynb.

Si vous souhaitez modifier l'exemple de texte utilisé dans la référence, modifiez ./vits/inferencems.py text Part.

Changements

Dans le référentiel de Cjangcjengh / VITS, j'ai apporté quelques modifications à la méthode de nettoyage de texte coréen. L'autre processus de nettoyage est le même en le publiant dans le référentiel Cjangcjengh, mais le fichier plus nettoyant a été modifié à l'aide de la bibliothèque Tenebo / G2PK2 comme prononcé coréen.