ฝึกอบรม hifi-gan บน TPU และการแก้ไขอื่น ๆ
Hifi-Gan เป็นนักร้อง Gan ยอดนิยมที่ได้รับคุณภาพเสียงที่ดีมากและการสร้างคำพูดแบบเรียลไทม์ใน CPU การใช้งาน hifi-gan อย่างเป็นทางการอยู่ที่ https://github.com/jik876/hifi-gan
repo นี้ได้ลองสิ่งต่าง ๆ เพื่อปรับปรุงการดำเนินการอย่างเป็นทางการ:
ใช้ JAX Library เพื่อให้คุณสามารถฝึกอบรม Gan Vocoder ของคุณใน TPU สามารถทำงานบน Google Colab TPUV2 ด้วยความเร็วที่ใกล้เคียงกับ V100 GPU มันสามารถเรียกใช้ X3 ได้เร็วขึ้น (มากกว่า V100) บน TPUV3 (ทดสอบบน Kaggle TPU)
แม้ว่ากระดาษ hifi-gan อ้างว่าเครื่องกำเนิดไฟฟ้าเป็นเครือข่ายประสาท (FCN) อย่างเป็นทางการ แต่การใช้งานอย่างเป็นทางการนั้นใช้ช่องว่างภายในที่เลเยอร์ CONV เพื่อให้มิติเหมือนกัน ดังนั้นจึงไม่ใช่ FCN repo นี้ให้เครื่องกำเนิด FCN ซึ่งนำไปสู่การปรับปรุงในการสูญเสีย mel-spectrogram
ใน repo นี้อัตราการเรียนรู้จะลดลงด้วย 0.999 สำหรับทุก ๆ 1,000 ขั้นตอน สิ่งนี้แตกต่างจากการใช้งานดั้งเดิมซึ่งจะช่วยลดอัตราการเรียนรู้สำหรับทุกยุค สำหรับชุดข้อมูลขนาดเล็กสิ่งนี้อาจทำให้อัตราการเรียนรู้ลดลงเร็วเกินไป
การใช้งานดั้งเดิมจะคำนวณเฟรม Mel-Spectrogram แบบมีเงื่อนไขได้ทันทีสำหรับแต่ละกลุ่มเสียงเป้าหมาย สิ่งนี้จะสร้างเฟรมลำเอียงที่ขอบเนื่องจากการขยาย ใน repo นี้เรายังคำนวณเฟรมเงื่อนไขได้ทันทีอย่างไรก็ตามเราลบเฟรมลำเอียงที่ขอบ
pip3 install -r requirements.txt
python3 ljs.py
python3 prepare_data.py --wav-dir=/path/to/wav/dir
python3 train.py --data-dir=/path/to/wav/dir