cnn_vocoder Download - cnn_vocoder CÓDIGO DOWNLOAD

cnn_vocoder

Código-Fonte de IA

1.0.0

Baixar

Cnnvocoder

Nota: não estou mais trabalhando neste projeto. Veja #9.

Um vocoder baseado na CNN.

Este trabalho é inspirado no modelo M-CNN descrito em inversão rápida do espectrograma usando redes neurais convolucionais de várias cabeças. Os autores mostram que mesmo uma simples rede de amostragem é suficiente para síntese a forma de onda do espectrograma/espectrograma MEL.

Neste repo, uso o recurso Spectrogram para o modelo de treinamento porque ele contém mais informações do que o recurso MEL-Spectrograma. No entanto, como a transformação do espectrograma para o espectrograma MEL é apenas uma projeção linear; portanto, basicamente, você pode treinar uma rede simples prever espectrograma do espectrograma MEL. Você também pode alterar os parâmetros para poder treinar um vocoder do recurso MEL-Spectrograma também.

Amostra de áudios

Notas de arquitetura

Compare com M-CNN, minha rede proposta tem algumas diferenças:

Eu uso as camadas de amostragem + convulsão em vez da camada transposta de conclusão. Isso ajuda a evitar artefatos de tabuleiro de xadrez.
O modelo usa muitos blocos residuais antes/após o módulo de amostragem para aumentar a rede maior/mais profunda.
Eu usei apenas a perda de L1 entre a magnitude da escala de log da forma de onda prevista e alvo. A perda de avaliação no espaço de toras é melhor do que a magnitude bruta do STFT, porque está mais próximo da sensação humana sobre o volume. Tentei calcular a perda no recurso Spectrogram, mas não ajudou muito.

Instale requisitos

$ pip install -r requirements.txt

Treinando vocoder

1. Prepare o conjunto de dados

Eu uso o conjunto de dados LJSpeech para o meu experimento. Se você ainda não o tiver, faça o download do conjunto de dados e coloque -o em algum lugar.

Depois disso, você pode executar o comando para gerar conjunto de dados para o nosso experimento:

$ python preprocessing.py --samples_per_audio 20  
--out_dir ljspeech 
--data_dir path/to/ljspeech/dataset 
--n_workers 4

2. Trem vocoder

$ python train.py --out_dir ${output_directory}

Para mais opções de treinamento, corra:

$ python train.py --help

Gerar áudio a partir de espectrograma

Gerar espectrograma a partir de áudio

$ python gen_spec.py -i sample.wav -o out.npz

Gerar áudio a partir de espectrograma

$ python synthesis.py --model_path path/to/checkpoint 
                      --spec_path out.npz 
                      --out_path out.wav

Modelo pré -terenciado

Você pode obter meu modelo pré-treinado aqui.

Agradecimentos

Esta implementação usa o código da NVIDIA, Ryuichi Yamamoto, Keith ITO, conforme descrito no meu código.

Licença

Mit

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-21
tamanho 2.5MB
Vindo de Github

Aplicativos Relacionados

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Mecanismo de análise de dados Lihua versão gratuita 3.0_search_navigation_collection_public parecer_ranking_api

2022-06-28

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos