تنزيل knowledge distillation pytorch - تنزيل رمز المصدر knowledge distillation pytorch

knowledge distillation pytorch

بايثون

1.0.0

تنزيل

صياغة المعرفة بيتورش

استكشاف تقطير المعرفة من DNNs لحلول الأجهزة الفعالة
المؤلف: هايتونغ لي
الإطار: Pytorch
مجموعة البيانات: CIFAR-10

سمات

إطار لاستكشاف تجارب "ضحلة" و "عميق" التقطير المعرفة (KD)
المقاييس المفرطة المعرفة بواسطة "params.json" عالميًا (تجنب أوامر Argparser الطويلة)
تفتيش الفائقة والنتائج المفرطة (كجدول)
شريط التقدم ودعم Tensorboard وحفظ/تحميل نقطة التفتيش (utils.py)
نماذج المعلمين المسبقة المتاحة للتنزيل

ثَبَّتَ

استنساخ الريبو

 git clone https://github.com/peterliht/knowledge-distillation-pytorch.git

تثبيت التبعيات (بما في ذلك pytorch)
```
 pip install -r requirements.txt
```

Organizatoin:

.
./experiments/: ملفات JSON لكل تجربة ؛ دير لفرط البحث
./model/: DNNS للمعلم والطالب ، تقطير المعرفة (KD) تفريغ الخسارة ، dataloader

ملاحظات رئيسية حول استخدام تجاربك:

قم بتنزيل ملف zip لنقاط تفتيش نموذج المعلم المسبق من "التجارب. zip"
ما عليك سوى تحريك المجلدات الفرعية غير المزروعة إلى "Distillation-Distillation-Pytorch/Entreaments/" (استبدال المجلدات الموجودة إذا لزم الأمر ؛ اتبع تسمية المسار الافتراضي)
Call Train.py لبدء تدريب CNN من 5 طبقات مع المعرفة المظلمة لـ Resnet-18 ، أو تدريب Resnet-18 مع نماذج أعمق على أحدث طراز
استخدم search_hyperparams.py لفرط البحث
يتم تعريف HyperParameters في ملفات params.json عالميا. ارجع إلى رأس Search_hyperparams.py للحصول على التفاصيل

قطار (مجموعة البيانات: CIFAR-10)

ملاحظة: يمكن العثور على جميع المقاييس المفرطة وتعديلها في "params.json" ضمن "model_dir"

-قم بتدريب شبكة شبكة سي إن إن من 5 طبقات مع المعرفة المقطرة من نموذج RESNET-18 الذي تم تدريبه مسبقًا

 python train.py --model_dir experiments/cnn_distill

-قم بتدريب نموذج RESNET-18 مع المعرفة المقطوعة من معلم RESNEXT-29 تم تدريبه مسبقًا

 python train.py --model_dir experiments/resnet18_distill/resnext_teacher

- بحث Hyperparameter عن تجربة محددة ('parent_dir/params.json')

 python search_hyperparams.py --parent_dir experiments/cnn_distill_alpha_temp

-تحديد نتائج تجارب الأبحاث الحديثة

 python synthesize_results.py --parent_dir experiments/cnn_distill_alpha_temp

النتائج: "ضحلة" و "عميق" التقطير

الوجبات السريعة (مزيد من التفاصيل التي يتعين إضافتها):

يوفر تقطير المعرفة التنظيم لكل من DNNs الضحلة و DNNs الحديثة
يمكن أن تستفيد مجموعة بيانات غير مسموعة أو جزئية من المعرفة المظلمة لنماذج المعلمين

-تقطير المعرفة من Resnet-18 إلى 5 طبقات CNN

نموذج	التسرب = 0.5	لا تسرب
5 طبقات CNN	83.51 ٪	84.74 ٪
5 طبقة CNN ث/ ريسنيت 18	84.49 ٪	85.69 ٪

- تقطير المعرفة من النماذج الأعمق إلى Resnet-18

نموذج	دقة الاختبار
الأساس Resnet-18	94.175 ٪
+ kd oderesnet-28-10	94.333 ٪
+ kd preresnet-110	94.531 ٪
+ KD Densenet-100	94.729 ٪
+ KD Resnext-29-8	94.788 ٪

مراجع

H. Li ، "استكشاف تقطير المعرفة للشبكات العصبية العميقة لحلول الأجهزة الفعالة" ، تقرير CS230 ، 2018

هينتون ، جيفري ، أوريول فينالس ، وجيف دين. "تقطير المعرفة في شبكة عصبية." Arxiv preprint Arxiv: 1503.02531 (2015).

Romero ، A. ، Ballas ، N. ، Kahou ، SE ، Chassang ، A. ، Gatta ، C. ، & Bengio ، Y. (2014). fitnets: تلميحات للشبكات العميقة الرقيقة. Arxiv preprint Arxiv: 1412.6550.

https://github.com/cs230-stanford/cs230-stanford.github.io

https://github.com/bearpaw/pytorch-lassification

يوسع

معلومات إضافية