ورقة مرجعية "تقطير المعرفة الخاصة بالمهمة من BERT إلى شبكات عصبية بسيطة"
أجريت التجارب على أساس textcnn و bilstm (GRU) باستخدام keras و pytorch على التوالي.
تنقسم البيانات التجريبية إلى 1 (تدريب العلامات): 8 (بدون تدريب على التسمية): 1 (اختبار)
النتائج الأولية على مجموعة بيانات التصنيف العاطفية 2 هي كما يلي:
دقة النموذج الصغير (TextCnn & Bilstm) تتراوح بين 0.80 و 0.81
دقة نموذج BERT تتراوح بين 0.90 و 0.91
تتراوح دقة نموذج التقطير بين 0.87 و 0.88
تتوافق النتائج التجريبية بشكل أساسي مع استنتاجات الورقة وتتوافق مع التوقعات
سيتم تجربة مخططات التقطير الأخرى الأكثر فعالية لاحقًا
بادئ ذي بدء ، Finetune Bert
python ptbert.pyثم Distil Bert في النموذج الصغير
تحتاج إلى إلغاء ضغط data/cache/word2vec.gz أولاً
ثم
python distill.py يمكن لضبط use_aug والمعلمات التالية في الملف استخدام اثنين من طرق تحسين البيانات المذكورة في الورقة (أخذ عينات n-gram)