Sistema de síntesis de voz multilingüe utilizando VITS
16GB de RAM.12GB de VRAM.Comando de instalación de Pytorch:
pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117 CUDA 11.7 Instalación: https://developer.nvidia.com/cuda-11-7-0-download-archive
Zlib dll Instalar: https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html#install-zlib-windows
Instale PyopenJTalk manualmente: pip install -U pyopenjtalk --no-build-isolation
Si este comando no se instala, instale la siguiente biblioteca antes de continuar: cmake Cython
conda create -n polylangvits python=3.8conda activate polylangvitsgit clone https://github.com/ORI-Muchim/PolyLangVITS.git cd PolyLangVITSpip install -r requirements.txtColoque los archivos de audio de la siguiente manera.
.mp3 o los archivos .wav están bien.
Debe escribir '[Código de idioma]' en la parte posterior de la carpeta del altavoz.
PolyLangVITS
├────datasets
│ ├───speaker0[KO]
│ │ ├────1.mp3
│ │ └────1.wav
│ └───speaker1[JA]
│ │ ├───1.mp3
│ │ └───1.wav
│ ├───speaker2[EN]
│ │ ├────1.mp3
│ │ └────1.wav
│ ├───speaker3[ZH]
│ │ ├────1.mp3
│ │ └────1.wav
│ ├integral.py
│ └integral_low.py
│
├────vits
├────get_pretrained_model.py
├────inference.py
├────main_low.py
├────main_resume.py
├────main.py
├────Readme.md
└────requirements.txt
Este es solo un ejemplo, y está bien agregar más altavoces.
Para iniciar esta herramienta, use el siguiente comando, reemplazando {lenguaje}, {model_name} y {sample_rate} con sus valores respectivos:
python main.py {language} {model_name} {sample_rate}Para aquellos con bajas especificaciones (VRAM <12GB), use este código:
python main_low.py {language} {model_name} {sample_rate}Si la configuración de datos está completa y desea reanudar la capacitación, ingrese este código:
python main_resume.py {model_name}Después de que el modelo haya sido entrenado, puede generar predicciones utilizando el siguiente comando, reemplazando {model_name} y {model_step} con sus valores respectivos:
python inference.py {model_name} {model_step}Para la inferencia de texto a voz, use lo siguiente:
python inference-stt.py {model_name} {model_step}Además, puede pasar manualmente el texto sin editar el código por:
python inference-stt.py {model_name} {model_step} {text}Para obtener más información, consulte los siguientes repositorios: