تدريب HIFI-GAN على TPU وغيرها من الإصلاحات.
HIFI-GAN هو VOCODER GAN شهير يحقق جودة الصوت الجيدة للغاية وتوليد الكلام في الوقت الفعلي على وحدة المعالجة المركزية. تنفيذ HIFI-gan الرسمي في https://github.com/jik876/hifi- gan
حاول هذا الريبو أشياء مختلفة لتحسين التنفيذ الرسمي:
يستخدم مكتبة Jax حتى تتمكن من تدريب Gan Vocoder على TPUS. يمكن تشغيله على Google Colab TPUV2 بسرعة مماثلة ل GPU V100. يمكن تشغيل X3 بشكل أسرع (من V100) على TPUV3 (تم اختباره على Kaggle TPU).
على الرغم من أن ورقة HIFI-GAN تدعي أن مولدها هو شبكة عصبية تلافيفية بالكامل (FCN) ، فإن تنفيذها الرسمي يستخدم الحشو في طبقات مقنعة للحفاظ على البعد كما هو. لذلك ليس FCN. يوفر هذا الريبو مولد FCN الذي يؤدي إلى تحسن في فقدان طيف الميل.
في هذا الريبو ، يتم تقليل معدل التعلم بعامل 0.999 لكل 1000 خطوة. هذا يختلف عن التنفيذ الأصلي الذي يقلل من معدل التعلم لكل فترة. بالنسبة لمجموعة بيانات صغيرة ، يمكن أن يتسبب ذلك في تقليل معدل التعلم بسرعة كبيرة.
يحسب التنفيذ الأصلي إطارات طيف الميل الشرطي أثناء الطيران لكل مقطع صوت مستهدف. هذا يخلق إطارات متحيزة على الحواف بسبب الحشو. في هذا الريبو ، نقوم أيضًا بحساب الإطارات المشروطة أثناء الطيران ، ومع ذلك ، نقوم بإزالة الإطارات المتحيزة على الحواف.
pip3 install -r requirements.txt
python3 ljs.py
python3 prepare_data.py --wav-dir=/path/to/wav/dir
python3 train.py --data-dir=/path/to/wav/dir