TPU 및 기타 수정 사항으로 Hifigan을 훈련시킵니다.
Hifi-Gan은 CPU에서 매우 우수한 오디오 품질과 실시간 언어 생성을 달성하는 인기있는 Gan 보코더입니다. 공식 Hifi-Gan 구현은 https://github.com/jik876/hifi-gan에 있습니다
이 repo는 공식 구현을 개선하기 위해 다른 것을 시도했습니다.
JAX 라이브러리를 사용하므로 TPU에서 GAN 보코더를 훈련시킬 수 있습니다. V100 GPU와 유사한 속도로 Google Colab TPUV2에서 실행할 수 있습니다. TPUV3 (Kaggle TPU에서 테스트)에서 X3보다 빠르게 실행할 수 있습니다 (V100보다).
Hifi-Gan 논문은 발전기가 완전히 컨볼 루션 신경망 (FCN)이라고 주장하지만 공식 구현은 Conv 레이어에서 패딩을 사용하여 치수를 동일하게 유지합니다. 따라서 FCN이 아닙니다. 이 repo는 FCN 생성기를 제공하여 Mel-spectrogram 손실을 개선시킵니다.
이 저장소에서 학습 속도는 1000 단계마다 0.999 배 줄어 듭니다. 이는 원래 구현과 다르며 모든 시대의 학습 속도를 줄입니다. 작은 데이터 세트의 경우 학습 속도가 너무 빨리 줄어들 수 있습니다.
원래 구현은 각 대상 오디오 세그먼트에 대해 조건부 멜 스펙트럼 프레임을 즉시 계산합니다. 이것은 패딩으로 인해 가장자리에서 바이어스 된 프레임을 만듭니다. 이 저장소에서는 조건부 프레임을 즉시 계산하지만 가장자리에서 바이어스 프레임을 제거합니다.
pip3 install -r requirements.txt
python3 ljs.py
python3 prepare_data.py --wav-dir=/path/to/wav/dir
python3 train.py --data-dir=/path/to/wav/dir