Descarga One Click VITS Training - Descargar el código fuente One Click VITS Training

One Click VITS Training

Código Fuente de IA

1.0.0

Descargar

Que hace solo hacer clic en la capacitación

Esta herramienta le permite completar todo el proceso de VIT (preprocesamiento de datos + Whisper ASR + Preprocesamiento de texto + modificación Config.json + entrenamiento, inferencia) ¡con un solo clic!

Tabla de contenido

Estructura
Requisitos previos
Instalación
Preparar_datasets
Uso
Inferencia
Cambios
Referencias

Estructura

Salida de muestra

Requisitos previos

Un sistema de Windows/Linux con un mínimo de 16GB de RAM.
Una GPU con al menos 12GB de VRAM.
Python == 3.8
Anaconda instalada.
Pytorch instalado.
CUDA 11.X instalado.
ZLIB DLL instalado.

Comando de instalación de Pytorch:

pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117

CUDA 11.7 Instalación: https://developer.nvidia.com/cuda-11-7-0-download-archive

Zlib dll Instalar: https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html#install-zlib-windows

Instale PyopenJTalk manualmente: pip install -U pyopenjtalk --no-build-isolation

Instalación

Crea un entorno de Anaconda:

conda create -n one-click-vits python=3.8

Activar el entorno:

conda activate one-click-vits

Clone este repositorio a su máquina local:

git clone https://github.com/ORI-Muchim/One-Click-VITS-Training.git

Navegue al directorio clonado:

 cd One-Click-VITS-Training

Instale las dependencias necesarias:

pip install -r requirements.txt

Preparar_datasets

Coloque los archivos de audio de la siguiente manera.

.mp3 o los archivos .wav están bien.

 One-Click-VITS-Training
├────datasets
│       ├───speaker0
│       │   ├────1.mp3
│       │   └────1.wav
│       └───speaker1
│       │    ├───1.mp3
│       │    └───1.wav
│       ├integral.py
│       └integral_low.py
│
├────vits
├────inference.py
├────main_low.py
├────main_resume.py
├────main.py
├────Readme.md
└────requirements.txt

Este es solo un ejemplo, y está bien agregar más altavoces.

Uso

Para iniciar esta herramienta, use el siguiente comando, reemplazando {lenguaje}, {model_name} y {sample_rate} con sus valores respectivos ({lenguaje: ko, ja, en, zh} / {sample_rate: 22050 /44100}):::

python main.py {language} {model_name} {sample_rate}

Para aquellos con bajas especificaciones (VRAM <12GB), use este código:

python main_low.py {language} {model_name} {sample_rate}

Si la configuración de datos está completa y desea reanudar la capacitación, ingrese este código:

python main_resume.py {model_name}

Inferencia

Después de que el modelo haya sido entrenado, puede generar predicciones utilizando el siguiente comando, reemplazando {model_name} y {model_step} con sus valores respectivos:

python inference.py {model_name} {model_step}

O verificar ./vits/inference.ipynb.

Si desea cambiar el texto de ejemplo utilizado en la referencia, modifique ./vits/inferencems.py text Part.

Cambios

En el repositorio de Cjangcjengh/Vits, hice algunas modificaciones al método de limpieza de texto coreano. El otro proceso de limpieza es el mismo al publicarlo en el repositorio de Cjangcjengh, pero el archivo limpiador se modificó utilizando la biblioteca TeneBo/G2PK2 como se pronuncia coreano.