vits2_pytorch Download - vits2_pytorch Download do código fonte

vits2_pytorch

Código-Fonte de IA

1.0.0

Baixar

Vits2: Melhorando a qualidade e a eficiência do texto em estágio em um único palco com aprendizado adversário e design de arquitetura

Jungil Kong, Jihoon Park, Beomjeong Kim, Jeongmin Kim, Dohee Kong, Sangjin Kim

Implementação não oficial do artigo Vits2, sequela do papel Vits. (Obrigado aos autores por seu trabalho!)

TEXTO DE ALT

Os modelos de texto para fala em estágio foi estudado recentemente recentemente e seus resultados superaram os sistemas de pipeline de duas etapas. Embora o modelo anterior tenha feito um grande progresso, há espaço para melhorias em termos de sua não natura intermitente, eficiência computacional e forte dependência da conversão do fonema. Neste trabalho, introduzimos o VITS2, um modelo de texto em fala em estágio que sintetiza com eficiência um discurso mais natural, melhorando vários aspectos do trabalho anterior. Propomos estruturas e mecanismos de treinamento aprimorados e apresentamos que os métodos propostos são eficazes para melhorar a naturalidade, a similaridade das características da fala em um modelo de vários falantes e a eficiência do treinamento e da inferência. Além disso, demonstramos que a forte dependência da conversão do fonema em trabalhos anteriores pode ser significativamente reduzida com o nosso método, o que permite uma abordagem de estágio único totalmente para o final para o final.

Créditos

Vamos construir esse repositório com base no repo Vits. O objetivo é facilitar a transferência deste modelo do aprendizado do modelo pré -terenciado!
(08-17-2023)-Os autores foram realmente gentis em me guiar pelo jornal e responder às minhas perguntas. Estou aberto para discutir quaisquer alterações ou responder perguntas sobre a implementação. Sinta -se à vontade para abrir um problema ou entre em contato comigo diretamente.

Ponto de verificação pré -ridato

LJSPEECH-NO-SDP (consulte Config.yaml nesta pasta de checkpoint) | 64k etapas | Prova de que o treinamento funciona! Recomendaria especialistas a renomear os CKPTs para *_0.tth e iniciar o treinamento usando o aprendizado de transferência. (Vou adicionar um caderno para isso em breve para ajudar os iniciantes).
Verifique a página de 'discussão' para obter registros de treinamento e links de tensorboard e outras contribuições da comunidade.

Amostra de áudio

Amostras de modelo treinado russo #32. Obrigado a @shigabeev por compartilhar as amostras.
Algumas amostras na página de discussão do conjunto de dados não nativos. Agradecemos a @athenasaurav por usar seus recursos e dados de GPU privados!
Adicionado amostra de áudio @104k etapas. LJSpeech-NOSDP; Tensorboard
Amostras vietnamitas graças a @ductho9799 por compartilhar!

Pré -requisitos

Python> = 3.10
Testado no Pytorch versão 1.13.1 com o Google Colab e o Lambdalabs Cloud.
Clone este repositório
Instale os requisitos do Python. Consulte requisitos.txt
1. Pode ser necessário instalar o Espeak primeiro: apt-get install espeak
Baixar conjuntos de dados
1. Faça o download e extraia o conjunto de dados de fala do LJ, depois renomeie ou crie um link para a pasta do conjunto de dados: ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
2. Para configuração de vários alto-falantes, baixe e extraia o conjunto de dados VCTK e desative os arquivos WAV para 22050 Hz. Em seguida, renomeie ou crie um link para a pasta do conjunto de dados: ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY2
Crie pesquisa de alinhamento monotônico e execute o pré -processamento se você usar seus próprios conjuntos de dados.

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace

# Preprocessing (g2p) for your own datasets. Preprocessed phonemes for LJ Speech and VCTK have been already provided.
# python preprocess.py --text_index 1 --filelists filelists/ljs_audio_text_train_filelist.txt filelists/ljs_audio_text_val_filelist.txt filelists/ljs_audio_text_test_filelist.txt 
# python preprocess.py --text_index 2 --filelists filelists/vctk_audio_sid_text_train_filelist.txt filelists/vctk_audio_sid_text_val_filelist.txt filelists/vctk_audio_sid_text_test_filelist.txt

Como correr (punção a seco)

Modelo Passo para a frente (corrida a seco)

 import torch
from models import SynthesizerTrn

net_g = SynthesizerTrn (
    n_vocab = 256 ,
    spec_channels = 80 , # <--- vits2 parameter (changed from 513 to 80)
    segment_size = 8192 ,
    inter_channels = 192 ,
    hidden_channels = 192 ,
    filter_channels = 768 ,
    n_heads = 2 ,
    n_layers = 6 ,
    kernel_size = 3 ,
    p_dropout = 0.1 ,
    resblock = "1" , 
    resblock_kernel_sizes = [ 3 , 7 , 11 ],
    resblock_dilation_sizes = [[ 1 , 3 , 5 ], [ 1 , 3 , 5 ], [ 1 , 3 , 5 ]],
    upsample_rates = [ 8 , 8 , 2 , 2 ],
    upsample_initial_channel = 512 ,
    upsample_kernel_sizes = [ 16 , 16 , 4 , 4 ],
    n_speakers = 0 ,
    gin_channels = 0 ,
    use_sdp = True , 
    use_transformer_flows = True , # <--- vits2 parameter
    # (choose from "pre_conv", "fft", "mono_layer_inter_residual", "mono_layer_post_residual")
    transformer_flow_type = "fft" , # <--- vits2 parameter 
    use_spk_conditioned_encoder = True , # <--- vits2 parameter
    use_noise_scaled_mas = True , # <--- vits2 parameter
    use_duration_discriminator = True , # <--- vits2 parameter
)

x = torch . LongTensor ([[ 1 , 2 , 3 ],[ 4 , 5 , 6 ]]) # token ids
x_lengths = torch . LongTensor ([ 3 , 2 ]) # token lengths
y = torch . randn ( 2 , 80 , 100 ) # mel spectrograms
y_lengths = torch . Tensor ([ 100 , 80 ]) # mel spectrogram lengths

net_g (
    x = x ,
    x_lengths = x_lengths ,
    y = y ,
    y_lengths = y_lengths ,
)

# calculate loss and backpropagate

Exemplo de treinamento

 # LJ Speech
python train.py -c configs/vits2_ljs_nosdp.json -m ljs_base # no-sdp; (recommended)
python train.py -c configs/vits2_ljs_base.json -m ljs_base # with sdp;

# VCTK
python train_ms.py -c configs/vits2_vctk_base.json -m vctk_base

# for onnx export of trained models
python export_onnx.py --model-path= " G_64000.pth " --config-path= " config.json " --output= " vits2.onnx "
python infer_onnx.py --model= " vits2.onnx " --config-path= " config.json " --output-wav-path= " output.wav " --text= " hello world, how are you? "

Todos, recursos e notas

Predictor de duração (Fig 1a)

Adicionado discriminador LSTM ao preditor de duração.
Adicionado perda adversária ao preditor de duração. ("use_duration_discriminator" sinalizador no arquivo de configuração; o padrão é "true")
A pesquisa de alinhamento monotônico com ruído gaussiano adicionado; Pode precisar de verificação de especialistas (Seção 2.2)
Adicionado sinalizador "use_noise_scaled_mas" no arquivo de configuração. Escolha de verdadeiro ou falso; Atualiza o ruído durante o treinamento com base no número de etapas e nunca fica abaixo de 0,0
Atualizar modelos.py/train.py/train_ms.py
Atualize os arquivos de configuração (VITS2_VCTK_BASE.JSON; VITS2_LJS_BASE.JSON)
Atualize as perdas em trens.py e trens_ms.py

Bloco do transformador no fluxo de normalização (Fig 1b)

Bloco de transformador adicionado ao fluxo normalizador. Existem três tipos de blocos de transformadores: pré-contentação (minha implementação), FFT (do repo SO-VITS-SVC) e da camada mono.
Adicionado "Transformer_flow_type" no arquivo de configuração. Escolha em "pre_conv", "fft", "mono_layer_inter_residual", "mono_layer_post_residual".
Camadas e blocos adicionados em modelos.py (residualcouplingTransformersLayer, residualcouplingTransformersBlock, fftransformerCouplingLayer, monotransformerflawlayer)
Adicionar arquivo de configuração (vits2_ljs_base.json; pode ser ativado usando o sinalizador "use_transformer_flows")

Codificador de texto condicionado ao alto-falante (Fig 1C)

Adicionado o alto -falante incorporando o codificador de texto em models.py (textEncoder; compatível com o VITs)
Adicionar arquivo de configuração (vits2_ljs_base.json; pode ser ativado usando "use_spk_conditioned_encoder" bandeira)

Codificador posterior do espectrograma MEL (Seção 3)

Adicionado Mel Spectrogram Coder posterior em trem.py
Novo arquivo de configuração adicionado (VITS2_LJS_BASE.JSON; pode ser ativado usando "USE_MEL_POSTORIOR_ENCODER".
Atualizado 'data_utils.py' para usar o sinalizador "use_mel_posterior_encoder" para Vits2

Scripts de treinamento

Adicionados bandeiras VITS2 para treinar.py (modelo de espinha única)
Adicionados sinalizadores VITS2 ao trens_ms.py (modelo multi-falante)

Exportação onnx

Adicione suporte de exportação ONNX.

Demo Gradio

Adicione o suporte da demonstração do gradio.

Menções especiais

@erogol para feedback e orientação rápida. (Por favor, verifique seu incrível coquitts repositório).
@Lexkoro para discussões e ajuda no treinamento do protótipo.
@Manmay-nakhashi para discussões e ajuda com o código.
@Athenasaurav por oferecer suporte à GPU para treinamento.
@W11wo para suporte OnNX.
@Subarasheese para graduação UI.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-20
tamanho 5.59MB
Vindo de Github

Aplicativos Relacionados

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
Mecanismo de análise de dados Lihua versão gratuita 3.0_search_navigation_collection_public parecer_ranking_api

2022-06-28

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos