Download melgan neurips - download do código fonte melgan neurips

melgan neurips

Pitão

1.0.0

Baixar

Repositório oficial do artigo Melgan: Redes adversárias generativas para síntese condicional de forma de onda

Trabalhos anteriores descobriram que gerar formas de onda de áudio cruas coerentes com Gans é um desafio. Neste artigo, mostramos que é possível treinar Gans de maneira confiável para gerar formas de onda coerentes de alta qualidade, introduzindo um conjunto de mudanças arquitetônicas e técnicas de treinamento simples. A métrica de avaliação subjetiva (pontuação média de opinião, ou MOS) mostra a eficácia da abordagem proposta para inversão de alto espectrograma de MEL de alta qualidade. Para estabelecer a generalidade das técnicas propostas, mostramos resultados qualitativos de nosso modelo na síntese da fala, tradução do domínio musical e síntese musical incondicional. Avaliamos os vários componentes do modelo por meio de estudos de ablação e sugerimos um conjunto de diretrizes para projetar discriminadores e geradores de uso geral para tarefas de síntese de sequência condicional. Nosso modelo é não autorregressivo, totalmente convolucional, com significativamente menos parâmetros do que modelos concorrentes e generaliza para falantes invisíveis para inversão de espectrograma MEL. Nossa implementação Pytorch é executada em mais de 100x mais rápida que o Real em tempo real na GPU GTX 1080TI e mais de 2x mais rápido que o tempo real na CPU, sem nenhum truque de otimização específico de hardware. Postagem do blog com amostras e código que o acompanha em breve.

Visite nosso site para obter amostras. Você pode experimentar o aplicativo de correção de fala criado aqui com base no pipeline de síntese de fala de ponta a ponta usando o Melgan.

Verifique os slides se você não estiver participando da conferência Neurips 2019 para conferir nosso pôster.

Organização de código

 ├── README.md             <- Top-level README.
├── set_env.sh            <- Set PYTHONPATH and CUDA_VISIBLE_DEVICES.
│
├── mel2wav
│   ├── dataset.py           <- data loader scripts
│   ├── modules.py           <- Model, layers and losses
│   ├── utils.py             <- Utilities to monitor, save, log, schedule etc.
│
├── scripts
│   ├── train.py                    <- training / validation / etc scripts
│   ├── generate_from_folder.py

Preparando o conjunto de dados

Crie uma pasta bruta com todas as amostras armazenadas no wavs/ SubPolder. Execute estes comandos:

ls wavs/ * .wav | tail -n+10 > train_files.txt
ls wavs/ * .wav | head -n10 > test_files.txt

Exemplo de treinamento

 . source set_env.sh 0
# Set PYTHONPATH and use first GPU
python scripts/train.py --save_path logs/baseline --path <root_data_folder>

Exemplo de hub pytorch

 import torch
vocoder = torch.hub.load('descriptinc/melgan-neurips', 'load_melgan')
vocoder.inverse(audio)  # audio (torch.tensor) -> (batch_size, 80, timesteps)

Expandir

Informações adicionais

Versão 1.0.0
Tipo Pitão
Data da Última Atualização 2025-07-12
tamanho 33.51MB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ToDo Co

Pitão

1.0.0
Python Portfolio

Pitão
datamule python

Pitão
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos