Latih HiFi-Gan pada TPU dan perbaikan lainnya.
HiFi-Gan adalah vokoder Gan populer yang mencapai kualitas audio yang sangat baik dan pembuatan bicara real-time di CPU. Implementasi HiFi-Gan resmi ada di https://github.com/jik876/hifi-gan
Repo ini mencoba berbagai hal untuk meningkatkan implementasi resmi:
Ini menggunakan Perpustakaan Jax sehingga Anda dapat melatih Vocoder Gan Anda di TPU. Ini dapat berjalan di Google Colab TPUV2 dengan kecepatan yang sama dengan GPU V100. Ini dapat menjalankan X3 lebih cepat (dari V100) pada TPUV3 (diuji pada Kaggle TPU).
Meskipun kertas HiFi-Gan mengklaim bahwa generatornya adalah jaringan saraf yang sepenuhnya konvolusional (FCN), implementasinya menggunakan bantalan pada lapisan konvensi untuk menjaga dimensi tetap sama. Jadi ini bukan FCN. Repo ini menyediakan generator FCN yang mengarah pada peningkatan dalam kehilangan Mel-spectrogram.
Dalam repo ini, tingkat pembelajaran dikurangi dengan faktor 0,999 untuk setiap 1000 langkah. Ini berbeda dari implementasi asli yang mengurangi tingkat pembelajaran untuk setiap zaman. Untuk dataset kecil, ini dapat menyebabkan tingkat pembelajaran dikurangi terlalu cepat.
Implementasi asli menghitung bingkai Mel-Spectrogram bersyarat dengan cepat untuk setiap segmen audio target. Ini menciptakan bingkai yang bias di tepi karena bantalan. Dalam repo ini, kami juga menghitung bingkai bersyarat dengan cepat, namun, kami menghapus bingkai bias di tepi.
pip3 install -r requirements.txt
python3 ljs.py
python3 prepare_data.py --wav-dir=/path/to/wav/dir
python3 train.py --data-dir=/path/to/wav/dir