Download de melgan - Download de código fonte de melgan

melgan

Código-Fonte de IA

voiced segment (fix #30, #17)

Baixar

Melgan

Implementação não oficial de pytorch do vocoder de Melgan

Principais recursos

Melgan é mais leve, mais rápido e melhor em generalizar para alto -falantes invisíveis do que o Wave Glow.
Este repositório usa a função idêntica do espectrograma de MEL de Nvidia/Tacotron2, portanto, isso pode ser usado diretamente para converter a saída do tacotron2 da NVIDIA em Audio Raw.
Modelo pré-terenciado no LJSpeech-1.1 via Hub Pytorch.

Pré -requisitos

Testado no Python 3.6

pip install -r requirements.txt

Prepare o conjunto de dados

Faça o download do conjunto de dados para treinamento. Isso pode ser qualquer arquivo WAV com taxa de amostragem 22050Hz. (por exemplo, LJSpeech foi usado em papel)
Processo: python preprocess.py -c config/default.yaml -d [data's root path]
Editar o arquivo yaml de configuração

Trem e Tensorboard

python trainer.py -c [config yaml file] -n [name of the run]
- cp config/default.yaml config/config.yaml e depois edite config.yaml
- Anote o caminho raiz dos arquivos de trem/validação para a 2ª/3ª linha.
- Cada caminho deve conter pares de *.wav com o arquivo correspondente (pré -processado) *.mel .
- A lista de arquivos do carregador de dados dentro do caminho recursivamente.
tensorboard --logdir logs/

Modelo pré -terenciado

Experimente com o Google Colab: TODO

 import torch
vocoder = torch . hub . load ( 'seungwonpark/melgan' , 'melgan' )
vocoder . eval ()
mel = torch . randn ( 1 , 80 , 234 ) # use your own mel-spectrogram here

if torch . cuda . is_available ():
    vocoder = vocoder . cuda ()
    mel = mel . cuda ()

with torch . no_grad ():
    audio = vocoder . inference ( mel )

Inferência

python inference.py -p [checkpoint path] -i [input mel path]

Resultados

Veja amostras de áudio em: http://swpark.me/melgan/. O modelo foi treinado na GPU V100 por 14 dias usando LJSpeech-1.1.

Autores de implementação

Seungwon Park@MindSlab Inc. ([email protected], [email protected])
Myunchul Joe @ MindSlab Inc.
Rishikesh @ DeepSync Technologies Pvt Ltd.

Licença

Licença de 3 cláusulas BSD.

Utils/stft.py por Prem Seetharaman (licença de 3-cláusulas BSD)
dados de dados/mel2samp.py de https://github.com/nvidia/waveglow (licença de 3-cláusulas BSD)
Utils/hparams.py de https://github.com/harryVolek/pytorch_speaker_verification (sem licença especificada)

Recursos úteis

Como treinar um gan? Dicas e truques para fazer Gans funcionarem por Soumith Chintala
Implementação oficial de Melgan por autores originais
Reprodução de Melgan - Desafio de Reprodutibilidade Neurips 2019 (faixa de ablação) por Yifei Zhao, Yichao Yang e Yang Gao
- "Substituir a camada média de agrupamento por camada máxima de pool e substituir o preenchimento de reflexão pelo preenchimento de replicação melhora significativamente o desempenho, enquanto combiná -los produz resultados piores"

Expandir

Informações adicionais

Versão voiced segment (fix #30, #17)
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-20
tamanho 223.05KB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos