تنزيل Concept based curriculum masking - تنزيل رمز المصدر Concept based curriculum masking

Concept based curriculum masking

كود الذكاء الاصطناعي

1.0.0

تنزيل

efficeint قبل التدريب من نموذج اللغة المقنعة عبر إخفاء المناهج الدراسية القائمة على المفهوم

إن إخفاء المناهج الدراسية القائمة على المفهوم (CCM) هو استراتيجية تدريب لنموذج اللغة الفعال قبل التدريب. يمكن استخدامه لمحولات ما قبل التدريب مع تكاليف حساب أقل نسبيا. يقوم إطار عملنا بإقناع المفاهيم في الجمل بترتيب سهل الاستخدام. يحقق CCM الأداء المقارن مع BERT الأصلي من خلال استخدام تكاليف حساب 1/2 فقط على معيار الغراء.

يحتوي هذا المستودع على رمز لورقة EMNLP 2022 الخاصة بنا: تدريب فعال قبل التدريب على نموذج اللغة المقنعة عبر إخفاء المناهج الدراسية القائمة على المفهوم. للحصول على وصف مفصل ونتائج تجريبية ، يرجى الرجوع إلى الورقة.

نتائج

النتائج على مجموعة الغراء dev

النماذج	كولا	SST	MRPC	STS	RTE
بيرت (صغير ، 14 م)	38.0	88.7	82.8	82.0	59.2
CCM (صغير ، 14 م)	42.8	89.1	84.1	83.3	61.3
بيرت (متوسط ، 26 م)	44.9	89.6	85.4	82.7	60.3
CCM (متوسط ، 26 م)	48.0	90.9	86.7	83.6	61.4
بيرت (قاعدة ، 110 م)	49.7	90.8	87.8	85.4	67.8
CCM (قاعدة ، 110 م)	60.3	93.1	88.3	85.5	65.0

النماذج	mnli	QQP	qnli
بيرت (صغير ، 14 م)	76.8	88.4	85.8
CCM (صغير ، 14 م)	77.5	88.6	86.3
بيرت (متوسط ، 26 م)	78.9	89.4	87.6
CCM (متوسط ، 26 م)	80.0	89.2	87.6
بيرت (قاعدة ، 110 م)	81.7	90.4	89.5
CCM (قاعدة ، 110 م)	84.1	91.0	91.4

متطلبات

بيثون 3
المحولات 1.1
numpy
Pytorch

تنزيل مفهوم

تنزيل ConceptNet التأكيدات.

 # Download assertions in the data folder.
$ wget ./data/assertions.csv https://s3.amazonaws.com/conceptnet/precomputed-data/2016/assertions/conceptnet-assertions-5.5.0.csv.gz

# run concept_extraction.py 
$ python ./script/concept_extraction.py

قبل التدريب

بناء المناهج الدراسية

use ./script/basicconcept_selection.py لإنشاء المرحلة الأولى من المنهج مع المفاهيم الأساسية المرتبطة بالعديد من المفاهيم الأخرى في الرسم البياني المعرفة وغالبًا ما تحدث في مجموعة ما قبل التدريب.

--conceptnet_path : مسار إلى ملف المفهوم المسبق.
--topk_connected_concepts : مفاهيم أفضل K متصلة بالعديد من المفاهيم الأخرى في الرسم البياني المعرفة.
--corpus_dir : دليل يحتوي على ملفات نصية خام يتحول إلى أمثلة تدريب MLM قبل التدريب.
--delete_threshold : عتبة التردد لتصفية المفاهيم النادرة.
--basicConcepts_num : اضبط عدد المفاهيم الأساسية المستخدمة للمنهج.
--save_path : مسار لحفظ مجموعة المفاهيم الأساسية.

استخدام ./script/curriculum_construction.py

--conceptnet_path : مسار إلى ملف المفهوم المسبق.
--num_of_hops : قم بتعيين عدد القفزات لإضافة المفاهيم ذات الصلة إلى مجموعة مفهوم المرحلة التالية.
--basic_concept_path : مسار لتحميل مجموعة المفاهيم الأساسية.
--save_dir : مسار لحفظ مجموعة المفاهيم لكل مرحلة من مراحل المنهج.
--num_of_stages : اضبط عدد المرحلة للمنهج.

البيانات المسبقة للبيانات

استخدم ./script/curriculum_construction.py لتحديد المفاهيم في المجموعة وترتيبها مع المنهج.

--corpus_dir : دليل يحتوي على ملفات نصية خام يتحول إلى أمثلة تدريب MLM قبل التدريب.
--save_dir : مسار لحفظ المجموعة المسبقة مسبقًا.
--curriculum_dir : دليل يحتوي على المنهج القائم على المفهوم.
--process_num : قم بتعيين عدد معالجات وحدة المعالجة المركزية للمعالجة المسبقة.

قبل تدريب النموذج

أخيرًا ، استخدم ./script/pre-training.py لتدريب النماذج الخاصة بك مسبقًا مع إخفاء المناهج الدراسية القائمة على المفهوم.

--curriculum_dir : دليل يحتوي على المنهج القائم على المفهوم.
--lr : اضبط معدل التعلم.
--epochs : اضبط عدد الحقبة.
--batch_size : اضبط حجم الدُفعة للإجراء في وقت واحد.
--step_batch_size : اضبط حجم الدُفعة للتحديث لكل خطوة (إذا كانت ذاكرة وحدة معالجة الرسومات كافية ، فقم بتعيين BATCH_SIZE و Step_Batch_Size نفسه.
--data_path : دليل يحتوي على أمثلة مسبقة المعالجة.
--warmup_steps : اضبط عدد الخطوات لتسخين النموذج باستخدام MLM الأصلي.
--model_size : اختر حجم النموذج إلى التدريب المسبق.