WaveGradダウンロードWaveGradソースコードのダウンロード

WaveGrad

AI ソースコード

1.0.0

ダウンロード

alt-text-1

ウェーブグレード

Google Brainの高忠実度波グラードボコーダー（Paper）の実装（Pytorch）。 6項目の高品質の生成を伴うGitHubでの最初の実装。

状態

リアルタイムファクター（RTF）

パラメーターの数：15.810.401

モデル	安定した	RTX 2080 TI	テスラK80	Intel Xeon 2.3GHz*
1000の反復	+	9.59	-	-
100の反復	+	0.94	5.85	-
50反復	+	0.45	2.92	-
25反復	+	0.22	1.45	-
12反復	+	0.10	0.69	4.55
6反復	+	0.04	0.33	2.09

*注：Intel Xeon CPUの古いバージョンを使用しました。

について

Wavegradは、Wavenet Similarサンプリング品質を備えたデータ密度の勾配を推定することにより、波形生成の条件付きモデルです。このボコーダーは、ganではなく、フローの正規化でも、古典的な自己回帰モデルでもありません。ボコーダーの主な概念は、ランジュビンのダイナミクスとスコアマッチングフレームワークを利用する拡散確率モデル（DDPM）の除去に基づいています。さらに、Classic DDPMと比較すると、Wavegradは超高速収束（6回の反復とおそらく低い）を達成します。

インストール

このレポをクローンします：

git clone https://github.com/ivanvovk/WaveGrad.git
cd WaveGrad

要件をインストールする：

pip install -r requirements.txt

トレーニング

1データの準備

filelistsフォルダーに含まれるように、オーディオデータのフィルリストをトレーニングおよびテストします。
configsフォルダーに構成ファイル*を作成します。

*注： STFTのhop_length変更する場合は、configのアップサンプリングfactorsの製品が新しいhop_lengthに等しいことを確認してください。

2つのシングルおよび分散型GPUトレーニング

runs/train.shスクリプトを開き、可視性のGPUデバイスと構成ファイルへのパスを指定します。複数のGPUを指定すると、トレーニングは分散モードで実行されます。
run sh runs/train.sh

3つのテンソルボードとロギング

トレーニングプロセスを追跡するには、テンソルボードでテンソルボードをtensorboard --logdir=logs/YOUR_LOGDIR_FOLDER 。すべてのロギング情報とチェックポイントは、 logs/YOUR_LOGDIR_FOLDERに保存されます。 logdir構成ファイルで指定されています。

4ノイズスケジュールグリッド検索

モデルがトレーニングされたら、グリッド検索最高のスケジュール* notebooks/inference.ipynbで必要な数の反復を検索します。コードは並列性をサポートするため、検索を加速するために複数のジョブを指定できます。

*注：少数の反復（6または7など）のためだけにグリッド検索が必要です。数値の場合は、Fibonacciシーケンスbenchmark.fibonacci(...)初期化を試してください。たとえば、優れた25項目のスケジュールから、要素をコピーすることで高次のスケジュールを作成できます。

前処理されたモデルのノイズスケジュール

グリッド検索を使用して、6項目のスケジュールが取得されました。その後、取得されたスキームに基づいて、手作業で、わずかに優れた近似を見つけました。
7人目のスケジュールも同じ方法で取得されました。
同じ方法で12代理のスケジュールが取得されました。
Fibonacciシーケンスbenchmark.fibonacci(...)を使用して25人の適性スケジュールが取得されました。
50の適性スケジュールは、25対投票スキームから要素を繰り返すことによって取得されました。
同じ方法で100項目のスケジュールが取得されました。
同じ方法で1000人の投与スケジュールが取得されました。

推論

cli

メルスペクトルグラムをいくつかのフォルダーに入れます。フィルリストを作ります。次に、このコマンドを独自の引数で実行します。

sh runs/inference.sh -c < your-config > -ch < your-checkpoint > -ns < your-noise-schedule > -m < your-mel-filelist > -v " yes "

Jupyterノートブック

より多くの推論の詳細はnotebooks/inference.ipynbで提供されています。また、モデルのノイズスケジュールを設定し、グリッドを最適なスキームを検索する方法を見つけることができます。

他の

生成されたオーディオ

生成されたオーディオの例は、 generated_samplesフォルダーで提供されています。 1000人の投与と6対投射の推論の間の品質劣化は、後者の最良のスケジュールが見つかった場合、顕著ではありません。

事前に保護されたチェックポイント

このGoogleドライブリンクを介して、ljspeech（22kHz）に事前に処理されたチェックポイントファイル*を見つけることができます。

*注：アップロードされたチェックポイントは、単一のキー'model'を備えたdictです。

重要な詳細、問題、コメント

トレーニング中に、波グラードでは、1000回の反復と範囲からの線形スケールベータを備えたデフォルトノイズスケジュールを使用します（1E-6、0.01）。推論のために、繰り返しを減らして別のスケジュールを設定できます。ベータを慎重に調整すると、出力品質はそれに大きく依存します。
デフォルトでは、モデルは混合された方法で実行されます。著者がTPUでモデルを訓練したため、バッチサイズは論文（256-> 96）と比較して変更されます。
単一のGPUで〜10kのトレーニングイテレーション（1〜2時間）の後、モデルは50方向の推論に対して良好な生成を実行します。総トレーニング時間は約1〜2日です（絶対収束の場合）。
ある時点で、トレーニングは奇妙でクレイジーな行動を開始する可能性があるため（損失が爆発する）、学習率（LR）スケジューリングとグラデーションクリッピングを導入しました。データの損失が爆発する場合は、LRスケジューラガンマを少し減らしてみてください。それは助けになるはずです。
デフォルトでは、STFTのホップ長は300等です（したがって、合計アップサンプリング係数）。他のケースはテストされていませんが、試すことができます。総Upsampling係数は、新しいホップの長さに依然として等しくなければならないことを忘れないでください。

更新の履歴

（新規：10/24/2020）巨大なアップデート。分散トレーニングと混合精度サポート。より正しい位置エンコーディング。推論に対するCLIサポート。平行グリッド検索。モデルサイズは大幅に減少しました。
Nvidia Tesla K80 GPUカード（Google Colab Serviceで人気）およびCPU Intel Xeon 2.3GHzの新しいRTF情報。
巨大なアップデート。新しい6文字のよく生成されたサンプルの例。新しいノイズスケジュール設定API。最高のスケジュールグリッド検索コードを追加しました。
よりスマートな学習率スケジューラを導入することにより、トレーニングを改善しました。高忠実度の合成が得られました。
安定したトレーニングと多文字化推論。 6対立ノイズスケジューリングがサポートされています。
安定したトレーニングと、重要な背景静的ノイズが残っている固定資料の推論。すべての位置エンコーディングの問題は解決されます。
25、50、および1000の固定式モデルの安定したトレーニング。位置エンコーディング（バグ）の線形スケーリング（紙からのC = 5000）は見つかりませんでした。
25、50、および1000の固定式モデルの安定したトレーニング。位置エンコーディングダウンスケーリングを修正しました。並列セグメントサンプリングは、フルメルサンプリングに置き換えられます。
（リリース、最初はGithubで）。並列セグメントサンプリングと壊れた位置エンコーディングダウンスケーリング。平行セグメントの生成からの連結からのクリックによる品質が悪い。