PolyLangVITS Download - PolyLangVITS Download de código fonte

PolyLangVITS

Código-Fonte de IA

Pretrained_Models

Baixar

Polylangvits

Sistema multilíngue de síntese de fala usando VITs

Índice

Pré -requisitos
Instalação
Prepare_datasets
Uso
Inferência
Referências

Pré -requisitos

Um sistema Windows/Linux com um mínimo de RAM de 16GB .
Uma GPU com pelo menos 12GB de VRAM.
Python == 3.8
Anaconda instalada.
Pytorch instalado.
CUDA 11.x instalado.
Zlib DLL instalado.

Comando de instalação pytorch:

pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117

CUDA 11.7 Instale: https://developer.nvidia.com/cuda-11-7-0-download-archive

ZLIB DLL Instalação: https://docs.nvidia.com/deeplearning/cudnn/install-guide/index.html#install-zlib-windows

Instale o pyopenjtalk manualmente: pip install -U pyopenjtalk --no-build-isolation

Se este comando não instalar, instale a seguinte biblioteca antes de proceder: cmake Cython

Instalação

Crie um ambiente de Anaconda:

conda create -n polylangvits python=3.8

Ative o ambiente:

conda activate polylangvits

Clone este repositório para sua máquina local:

git clone https://github.com/ORI-Muchim/PolyLangVITS.git

Navegue até o diretório clonado:

 cd PolyLangVITS

Instale as dependências necessárias:

pip install -r requirements.txt

Prepare_datasets

Coloque os arquivos de áudio da seguinte forma.

Os arquivos .mp3 ou .wav estão bem.

Você deve escrever '[código do idioma]' na parte traseira da pasta do alto -falante.

 PolyLangVITS
├────datasets
│       ├───speaker0[KO]
│       │   ├────1.mp3
│       │   └────1.wav
│       └───speaker1[JA]
│       │    ├───1.mp3
│       │    └───1.wav
│       ├───speaker2[EN]
│       │   ├────1.mp3
│       │   └────1.wav
│       ├───speaker3[ZH]
│       │   ├────1.mp3
│       │   └────1.wav
│       ├integral.py
│       └integral_low.py
│
├────vits
├────get_pretrained_model.py
├────inference.py
├────main_low.py
├────main_resume.py
├────main.py
├────Readme.md
└────requirements.txt

Este é apenas um exemplo, e não há problema em adicionar mais alto -falantes.

Uso

Para iniciar esta ferramenta, use o seguinte comando, substituindo {idioma}, {model_name} e {sample_rate} pelos seus respectivos valores:

python main.py {language} {model_name} {sample_rate}

Para aqueles com baixas especificações (VRAM <12 GB), use este código:

python main_low.py {language} {model_name} {sample_rate}

Se a configuração de dados estiver concluída e você quiser retomar o treinamento, insira este código:

python main_resume.py {model_name}

Inferência

Depois que o modelo foi treinado, você pode gerar previsões usando o seguinte comando, substituindo {Model_name} e {Model_Step} pelos seus respectivos valores:

python inference.py {model_name} {model_step}

Para obter o texto da inferência da fala, use o seguinte:

python inference-stt.py {model_name} {model_step}

Além disso, você pode passar manualmente no texto sem editar o código por:

python inference-stt.py {model_name} {model_step} {text}

Referências

Para mais informações, consulte os seguintes repositórios:

JAYWALNUT310/VITS
Cjangcjengh/vits
Kyubyong/G2PK
Tenebo/G2pk2
Henrymass/Audioslicer

Expandir

Informações adicionais

Versão Pretrained_Models
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-14
tamanho 31.98MB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos

PolyLangVITS

Polylangvits