hifigan tpu
1.0.0
TPUおよびその他の修正でHifi-Ganを訓練します。
Hifi-Ganは、CPUで非常に優れたオーディオ品質とリアルタイムの音声生成を達成する人気のGan Vocoderです。公式のHIFI-GAN実装は、https://github.com/jik876/hifi-ganにあります
このリポジトリは、公式の実装を改善するためにさまざまなことを試みました。
Jaxライブラリを使用して、TPUでGan Vocoderをトレーニングできます。 V100 GPUと同様の速度でGoogle Colab TPUV2で実行できます。 TPUV3(Kaggle TPUでテスト)で(V100よりも)x3をより速く実行できます。
Hifi-Ganの論文は、その発電機が完全に畳み込みニューラルネットワーク(FCN)であると主張していますが、公式の実装は、コンビレイヤーでパディングを使用して次元を同じに保ちます。したがって、それはFCNではありません。このリポジトリは、メルスペクトルの損失の改善につながるFCNジェネレーターを提供します。
このレポでは、学習率は1000ステップごとに0.999倍に削減されます。これは、すべての時代の学習率を低下させる元の実装とは異なります。小さなデータセットの場合、これにより学習率が速すぎるとなります。
元の実装では、各ターゲットオーディオセグメントの条件付きメルスペクトルグラムフレームをその場で計算します。これにより、パディングによるエッジに偏ったフレームが作成されます。このレポでは、その場で条件付きフレームも計算しますが、エッジのバイアスフレームを削除します。
pip3 install -r requirements.txt
python3 ljs.py
python3 prepare_data.py --wav-dir=/path/to/wav/dir
python3 train.py --data-dir=/path/to/wav/dir