WG WaveNet Download - WG WaveNet Código Fonte Download

WG WaveNet

Código-Fonte de IA

1.0.0

Baixar

WG-WaveNet: Síntese de fala em tempo real de alta fidelidade sem GPU

Po-chun Hsu, Hung-yi Lee

Em nosso artigo recente, propomos WG-WaveNet, um modelo de geração de formas de onda rápido, leve e de alta qualidade. O WG-WaveNet é composto por um modelo compacto baseado em fluxo e um pós-filtro. Os dois componentes são treinados em conjunto, maximizando a probabilidade dos dados de treinamento e otimizando as funções de perda nos domínios de frequência. À medida que projetamos um modelo baseado em fluxo que é fortemente comprimido, o modelo proposto requer muito menos recursos computacionais em comparação com outros modelos de geração de formas de onda durante o treinamento e o tempo de inferência; Embora o modelo seja altamente comprimido, o pós-filtro mantém a qualidade da forma de onda gerada. Nossa implementação Pytorch pode ser treinada usando menos de 8 GB de memória GPU e gera amostras de áudio a uma taxa de mais de 5000 kHz em uma GPU NVIDIA 1080TI. Além disso, mesmo que sintetize em uma CPU, mostramos que o método proposto é capaz de gerar 44,1 kHz de forma de onda de fala 1,2 vezes mais rápido que em tempo real. As experiências também mostram que a qualidade do áudio gerado é comparável às de outros métodos.

Visite o DemoPage para amostras de áudio.

PENDÊNCIA

Libere modelo pré -terenciado.
Combine com o tacotron2.

Requisitos

Python> = 3.5.2
tocha> = 1.4.0
Numpy
Scipy
salmoura
Librosa
Tensorboardx

Pré -processamento

Treinamento

Baixe o discurso LJ. Neste exemplo, está em data/
Para treinamento, execute o seguinte comando.

python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models >

Para treinamento usando um modelo pré -terenciado, execute o seguinte comando.

python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --ckpt_pth= < pth/to/pretrained/model >

Para usar o Tensorboard (opcional), execute o seguinte comando.

python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --log_dir= < dir/to/logs >

Inferência

Para sintetizar arquivos WAV, execute o seguinte comando.

python3 inference.py --ckpt_pth= < pth/to/model > --src_pth= < pth/to/src/wavs > --res_pth= < pth/to/save/wavs >

Modelo pré -terenciado

Trabalho em andamento.

TTS

Combinaremos esse vocoder com o Tacotron2. Mais informações e a demonstração do Colab serão divulgadas aqui.

Referências

Waveglow por Nvidia
Parallelwavegan por Kan-Bayashi

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-22
tamanho 13.71KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
wgcf

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos