hifigan tpu
1.0.0
在TPU和其他修復程序上訓練Hifi-Gan。
Hifi-Gan是一位受歡迎的Gan Vocoder,在CPU上實現了非常好的音頻質量和實時演講。官方的HIFI-GAN實施在https://github.com/jik876/hifi-gan
該倉庫嘗試了不同的事情來改善官方實施:
它使用JAX庫,因此您可以在TPU上訓練GAN VOCODER。它可以在Google Colab TPUV2上運行,其速度與V100 GPU相似。它可以在TPUV3上(在Kaggle TPU測試)上運行X3(比V100)。
即使HIFI-GAN論文聲稱其發電機是完全卷積的神經網絡(FCN),但其官方實施使用在Conv層進行填充以保持尺寸相同。所以它不是FCN。該倉庫提供了FCN發電機,可改善MEL光譜圖的損失。
在此存儲庫中,每1000個步驟的學習率降低了0.999。這與原始實現不同,該實現降低了每個時期的學習率。對於一個小數據集,這可能會導致學習率太快。
原始實現為每個目標音頻段即時計算有條件的MEL光譜圖。由於填充,這會在邊緣產生偏見的幀。在此存儲庫中,我們還可以隨時計算有條件的幀,但是,我們在邊緣處刪除了有偏見的幀。
pip3 install -r requirements.txt
python3 ljs.py
python3 prepare_data.py --wav-dir=/path/to/wav/dir
python3 train.py --data-dir=/path/to/wav/dir