hifigan tpuダウンロードhifigan tpuソースコードのダウンロード

ダウンロード

Hifigan-TPU

TPUおよびその他の修正でHifi-Ganを訓練します。

Hifi-Ganは、CPUで非常に優れたオーディオ品質とリアルタイムの音声生成を達成する人気のGan Vocoderです。公式のHIFI-GAN実装は、https：//github.com/jik876/hifi-ganにあります

このリポジトリは、公式の実装を改善するためにさまざまなことを試みました。

Jaxライブラリを使用して、TPUでGan Vocoderをトレーニングできます。 V100 GPUと同様の速度でGoogle Colab TPUV2で実行できます。 TPUV3（Kaggle TPUでテスト）で（V100よりも）x3をより速く実行できます。
Hifi-Ganの論文は、その発電機が完全に畳み込みニューラルネットワーク（FCN）であると主張していますが、公式の実装は、コンビレイヤーでパディングを使用して次元を同じに保ちます。したがって、それはFCNではありません。このリポジトリは、メルスペクトルの損失の改善につながるFCNジェネレーターを提供します。
このレポでは、学習率は1000ステップごとに0.999倍に削減されます。これは、すべての時代の学習率を低下させる元の実装とは異なります。小さなデータセットの場合、これにより学習率が速すぎるとなります。
元の実装では、各ターゲットオーディオセグメントの条件付きメルスペクトルグラムフレームをその場で計算します。これにより、パディングによるエッジに偏ったフレームが作成されます。このレポでは、その場で条件付きフレームも計算しますが、エッジのバイアスフレームを削除します。

pip3 install -r requirements.txt
python3 ljs.py
python3 prepare_data.py --wav-dir=/path/to/wav/dir
python3 train.py --data-dir=/path/to/wav/dir

拡大する

追加情報