إن إخفاء المناهج الدراسية القائمة على المفهوم (CCM) هو استراتيجية تدريب لنموذج اللغة الفعال قبل التدريب. يمكن استخدامه لمحولات ما قبل التدريب مع تكاليف حساب أقل نسبيا. يقوم إطار عملنا بإقناع المفاهيم في الجمل بترتيب سهل الاستخدام. يحقق CCM الأداء المقارن مع BERT الأصلي من خلال استخدام تكاليف حساب 1/2 فقط على معيار الغراء.
يحتوي هذا المستودع على رمز لورقة EMNLP 2022 الخاصة بنا: تدريب فعال قبل التدريب على نموذج اللغة المقنعة عبر إخفاء المناهج الدراسية القائمة على المفهوم. للحصول على وصف مفصل ونتائج تجريبية ، يرجى الرجوع إلى الورقة.
النتائج على مجموعة الغراء dev
| النماذج | كولا | SST | MRPC | STS | RTE |
|---|---|---|---|---|---|
| بيرت (صغير ، 14 م) | 38.0 | 88.7 | 82.8 | 82.0 | 59.2 |
| CCM (صغير ، 14 م) | 42.8 | 89.1 | 84.1 | 83.3 | 61.3 |
| بيرت (متوسط ، 26 م) | 44.9 | 89.6 | 85.4 | 82.7 | 60.3 |
| CCM (متوسط ، 26 م) | 48.0 | 90.9 | 86.7 | 83.6 | 61.4 |
| بيرت (قاعدة ، 110 م) | 49.7 | 90.8 | 87.8 | 85.4 | 67.8 |
| CCM (قاعدة ، 110 م) | 60.3 | 93.1 | 88.3 | 85.5 | 65.0 |
| النماذج | mnli | QQP | qnli |
|---|---|---|---|
| بيرت (صغير ، 14 م) | 76.8 | 88.4 | 85.8 |
| CCM (صغير ، 14 م) | 77.5 | 88.6 | 86.3 |
| بيرت (متوسط ، 26 م) | 78.9 | 89.4 | 87.6 |
| CCM (متوسط ، 26 م) | 80.0 | 89.2 | 87.6 |
| بيرت (قاعدة ، 110 م) | 81.7 | 90.4 | 89.5 |
| CCM (قاعدة ، 110 م) | 84.1 | 91.0 | 91.4 |
تنزيل ConceptNet التأكيدات.
# Download assertions in the data folder.
$ wget ./data/assertions.csv https://s3.amazonaws.com/conceptnet/precomputed-data/2016/assertions/conceptnet-assertions-5.5.0.csv.gz
# run concept_extraction.py
$ python ./script/concept_extraction.py
use ./script/basicconcept_selection.py لإنشاء المرحلة الأولى من المنهج مع المفاهيم الأساسية المرتبطة بالعديد من المفاهيم الأخرى في الرسم البياني المعرفة وغالبًا ما تحدث في مجموعة ما قبل التدريب.
--conceptnet_path : مسار إلى ملف المفهوم المسبق.--topk_connected_concepts : مفاهيم أفضل K متصلة بالعديد من المفاهيم الأخرى في الرسم البياني المعرفة.--corpus_dir : دليل يحتوي على ملفات نصية خام يتحول إلى أمثلة تدريب MLM قبل التدريب.--delete_threshold : عتبة التردد لتصفية المفاهيم النادرة.--basicConcepts_num : اضبط عدد المفاهيم الأساسية المستخدمة للمنهج.--save_path : مسار لحفظ مجموعة المفاهيم الأساسية. استخدام ./script/curriculum_construction.py
--conceptnet_path : مسار إلى ملف المفهوم المسبق.--num_of_hops : قم بتعيين عدد القفزات لإضافة المفاهيم ذات الصلة إلى مجموعة مفهوم المرحلة التالية.--basic_concept_path : مسار لتحميل مجموعة المفاهيم الأساسية.--save_dir : مسار لحفظ مجموعة المفاهيم لكل مرحلة من مراحل المنهج.--num_of_stages : اضبط عدد المرحلة للمنهج. استخدم ./script/curriculum_construction.py لتحديد المفاهيم في المجموعة وترتيبها مع المنهج.
--corpus_dir : دليل يحتوي على ملفات نصية خام يتحول إلى أمثلة تدريب MLM قبل التدريب.--save_dir : مسار لحفظ المجموعة المسبقة مسبقًا.--curriculum_dir : دليل يحتوي على المنهج القائم على المفهوم.--process_num : قم بتعيين عدد معالجات وحدة المعالجة المركزية للمعالجة المسبقة. أخيرًا ، استخدم ./script/pre-training.py لتدريب النماذج الخاصة بك مسبقًا مع إخفاء المناهج الدراسية القائمة على المفهوم.
--curriculum_dir : دليل يحتوي على المنهج القائم على المفهوم.--lr : اضبط معدل التعلم.--epochs : اضبط عدد الحقبة.--batch_size : اضبط حجم الدُفعة للإجراء في وقت واحد.--step_batch_size : اضبط حجم الدُفعة للتحديث لكل خطوة (إذا كانت ذاكرة وحدة معالجة الرسومات كافية ، فقم بتعيين BATCH_SIZE و Step_Batch_Size نفسه.--data_path : دليل يحتوي على أمثلة مسبقة المعالجة.--warmup_steps : اضبط عدد الخطوات لتسخين النموذج باستخدام MLM الأصلي.--model_size : اختر حجم النموذج إلى التدريب المسبق. للحصول على المساعدة أو المشكلات التي تستخدم CCM ، يرجى تقديم مشكلة github.
للاتصال الشخصي المتعلق بـ CCM ، يرجى الاتصال بـ Mingyu Lee <[email protected]> أو Jun-hyung Park <[email protected]> .