hifigan tpu
1.0.0
在TPU和其他修复程序上训练Hifi-Gan。
Hifi-Gan是一位受欢迎的Gan Vocoder,在CPU上实现了非常好的音频质量和实时演讲。官方的HIFI-GAN实施在https://github.com/jik876/hifi-gan
该仓库尝试了不同的事情来改善官方实施:
它使用JAX库,因此您可以在TPU上训练GAN VOCODER。它可以在Google Colab TPUV2上运行,其速度与V100 GPU相似。它可以在TPUV3上(在Kaggle TPU测试)上运行X3(比V100)。
即使HIFI-GAN论文声称其发电机是完全卷积的神经网络(FCN),但其官方实施使用在Conv层进行填充以保持尺寸相同。所以它不是FCN。该仓库提供了FCN发电机,可改善MEL光谱图的损失。
在此存储库中,每1000个步骤的学习率降低了0.999。这与原始实现不同,该实现降低了每个时期的学习率。对于一个小数据集,这可能会导致学习率太快。
原始实现为每个目标音频段即时计算有条件的MEL光谱图。由于填充,这会在边缘产生偏见的帧。在此存储库中,我们还可以随时计算有条件的帧,但是,我们在边缘处删除了有偏见的帧。
pip3 install -r requirements.txt
python3 ljs.py
python3 prepare_data.py --wav-dir=/path/to/wav/dir
python3 train.py --data-dir=/path/to/wav/dir