MB iSTFT VITS with AutoVocoder - MB iSTFT VITS with AutoVocoder

MB iSTFT VITS with AutoVocoder

Código-Fonte de IA

1.0.0

Baixar

MB-ISTFT-VITS com Autovocoder

Motivação para implementação

A partir de Vits, o MB-ISTFT-VITS melhora a velocidade de síntese usando as técnicas abaixo:

Estratégia de geração paralela de várias bandas, decompondo sinais de fala em sinais de sub-banda
Processo de geração de formas de onda baseado em ISTFT

Com base nessa estrutura bem projetada, esse repositório visa melhorar ainda mais a qualidade do som e a velocidade de inferência com o Autovocoder.
Este repositório é baseado em mb-istft-vits, e as modificações e aprimoramentos esperados estão abaixo:

1. Substitua o decodificador baseado em ISTFTNET pelo decodificador baseado em autovocodificador.
2. Na operação ISTFT, use componentes reais/imaginários em vez de fase/magnitude para construir espectrograma complexo. Adicione perda de reconstrução no domínio do tempo.
3. Revise o codificador posterior para aceitar 4 componentes complexos em vez de espectrograma linear.

Devido à natureza dos Vits que modelam latentes poderosos, o Autovocoder pode ser uma aplicação adequada devido à sua arquitetura de autoencoder. Também possui uma velocidade de inferência rápida gerando uma forma de onda diretamente com o tamanho (1024, 256, 1024) FFT/HOP/WIN sem módulos UPSMPling. (Stargy de várias bandas será mantido)
Modelos TTS convencionais, incluindo Vits, as informações da fase de modelagem têm sido inteiramente o papel de um decodificador (vocoder). No Mod 3. , Ao fornecer informações de fase aos latentes, testamos se o anterior pode aproxer com segurança esses latentes.

Disclaimer : This repo is built for testing purpose. Performance is not guaranteed. Welcome your contributions.

Observação

Para facilitar a comparação, não alteramos toda a arquitetura do codificador posterior. Em vez disso, usamos apenas a convolução do grupo na parte frontal para processar entradas revisadas (4 componentes complexos).
No Current, esse repositório tenta implementar um modelo baseado em MB-ISTFT-VITS. Aplicação a Mini, MS, W/O MB pode ser um trabalho futuro.

Explicação (de MB-Iistft-Vits)

0. Linha de base: mb-istft-vits

1. Pré-requisitos

Python> = 3.6
Clone este repositório
Instale os requisitos do Python. Consulte requisitos.txt
1. Pode ser necessário instalar o Espeak primeiro: apt-get install espeak
Baixar conjuntos de dados
1. Faça o download e extraia o conjunto de dados de fala do LJ, depois renomeie ou crie um link para a pasta do conjunto de dados: ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
Crie pesquisa de alinhamento monotônico e execute o pré -processamento se você usar seus próprios conjuntos de dados.

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
mkdir monotonic_align
python setup.py build_ext --inplace

2. Treinamento

No caso do treinamento MB-ISTFT-VITS, execute o seguinte script

python train_latest.py -c configs/ljs_mb_istft_vits.json -m ljs_mb_istft_vits

Após o treinamento, você pode verificar o áudio de inferência usando inference.ipynb

Referências

Mb-artft-vits: papel / código
Autovocoder: Artigo / Código (não oficial)

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-14
tamanho 5.02MB
Vindo de Github

Aplicativos Relacionados

MB Lab

2024-11-12
preso com Jester

2024-02-23
Criador de RPG COM

2024-02-23
Com meu passado

2024-02-21
Texto com Jesus

2023-08-17
Subir com carrinho de mão

2022-08-26

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos