melganダウンロード - melganソースコードのダウンロード

日本語

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

ホーム>プログラミング関連>AI ソースコード

melgan

AI ソースコード

voiced segment (fix #30, #17)

ダウンロード

メルガン

Melgan Vocoderの非公式Pytorch実装

重要な機能

メルガンは、波が軽く、より速く、より速く、より良いスピーカーに一般化するのが優れています。
このリポジトリは、Nvidia/Tacotron2の同一のMelスペクトルグラム関数を使用するため、これを使用してNvidiaのTacotron2からの出力をRaw-Audioに変換するために直接使用できます。
Pytorch Hubを介したLjspeech-1.1の事前に審理されたモデル。

前提条件

Python 3.6でテストしました

pip install -r requirements.txt

データセットを準備します

トレーニング用のデータセットをダウンロードしてください。これは、サンプルレート22050Hzの任意のWAVファイルにすることができます。（例えば、ljspeechが紙で使用されました）
プリプロセス： python preprocess.py -c config/default.yaml -d [data's root path]
構成yamlファイルを編集します

電車とテンソルボード

python trainer.py -c [config yaml file] -n [name of the run]
- cp config/default.yaml config/config.yaml 、次にconfig.yamlを編集します
- トレイン/検証ファイルのルートパスを2番目/3行目に書き留めます。
- 各パスには、対応する（前処理） *.melファイルを持つ*.wavのペアを含める必要があります。
- データローダーは、パス内のファイルのリストを再帰的に解析します。
tensorboard --logdir logs/

事前に保護されたモデル

Google Colab：Todoでお試しください

 import torch
vocoder = torch . hub . load ( 'seungwonpark/melgan' , 'melgan' )
vocoder . eval ()
mel = torch . randn ( 1 , 80 , 234 ) # use your own mel-spectrogram here

if torch . cuda . is_available ():
    vocoder = vocoder . cuda ()
    mel = mel . cuda ()

with torch . no_grad ():
    audio = vocoder . inference ( mel )

推論

python inference.py -p [checkpoint path] -i [input mel path]

結果

http://swpark.me/melgan/のオーディオサンプルを参照してください。モデルは、ljspeech-1.1を使用して14日間V100 GPUで訓練されました。

実装著者

Seungwon Park@Mindslab Inc.（[email protected]、[email protected]）
myunchul joe @ mindslab Inc.
Rishikesh @ Deepsync Technologies Pvt Ltd.

ライセンス

BSD 3-Clauseライセンス。

Prem SeetharamanによるUtils/Stft.py（BSD 3-Clauseライセンス）
https://github.com/nvidia/waveglowからのデータセット/mel2samp.py
utils/hparams.py from https://github.com/harryvolek/pytorch_speaker_verification（ライセンスが指定されていない）

有用なリソース

ガンを訓練する方法は？ Soumith Chintalaによるガンを機能させるためのヒントとコツ
元の著者による公式のメルガン実装
メルガンの複製 - Yifei Zhao、Yichao Yang、Yang GaoによるNeurips 2019再現性チャレンジ（アブレーショントラック）
- 「平均プーリング層を最大プーリング層に置き換え、反射パディングを複製パディングに置き換えると、パフォーマンスが大幅に向上し、それらを組み合わせると、より悪い結果が得られます」

拡大する

追加情報

バージョン voiced segment (fix #30, #17)
タイプ AI ソースコード
更新時間 2025-08-20
サイズ 223.05KB
から Github

関連アプリ

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

おすすめ

chat.petals.dev

その他のソースコード

1.0.0
GPT Prompt Templates

その他のソースコード

1.0.0
GPTyped

その他のソースコード

GPTyped 1.0.5
ML stack

AI ソースコード

1.0.0
awesome free chatgpt

AI ソースコード

1.0.0
pywin_contextmenu

AI ソースコード

Version update
Google Dorks

その他のソースコード

1.0
shepherd

その他のソースコード

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

その他のソースコード

v1.1.0-rc-3

関連情報すべて