يستوحى هذا المستودع من مقالة "النماذج اللغوية الكبيرة (LLMS)" ويحتوي على رمز لتدريب نموذج تصنيف النص باستخدام مجموعة بيانات TreeBank Treebank (SST-2) في ستانفورد (SST-2) و Lora (التكيف منخفض الرتبة لنماذج اللغة الكبيرة). Lora هي وسيلة لجعل نموذج اللغة أكثر قابلية للتكيف وفعالية. بدلاً من تدريب النموذج بأكمله مرة أخرى لكل مهمة ، تقوم Lora بتجميد النموذج الذي تم تدريبه مسبقًا ويضيف مصفوفات قابلة للتدريب أصغر إلى كل طبقة طراز. تساعد هذه المصفوفات النموذج على التكيف مع المهام المختلفة دون تغيير جميع المعلمات.
قبل استخدام الرمز في هذا المستودع ، تحتاج إلى تثبيت المكتبات المطلوبة. يمكنك القيام بذلك عن طريق تشغيل الأوامر التالية:
! pip install datasets
! pip install transformers
! pip install peft
! pip install evaluateستقوم هذه الأوامر بتثبيت مكتبات Python اللازمة للعمل مع مجموعات البيانات والمحولات و Lora ومقاييس التقييم.
إليك كيفية استخدام الرمز في هذا المستودع:
قم بتحميل مجموعة بيانات SST-2 :
يقوم الرمز بتحميل مجموعة بيانات SST-2 باستخدام مكتبة datasets الوجه المعانقة. يتكون SST-2 من جمل من مراجعات الأفلام ، المعروفة مع ملصقات المشاعر. يمكنك العثور على مزيد من المعلومات حول مجموعة بيانات SST-2 هنا.
حدد بنية طراز Lora :
يستخدم الرمز تقنية Lora لضبط نموذج لغة تم تدريبه مسبقًا لتصنيف النص. تتكيف Lora بكفاءة النموذج مع المهمة من خلال الاستفادة من خاصية الرتبة المنخفضة للاختلافات في الوزن. يمكن العثور على تنفيذ Lora في الكود.
رمز مجموعة البيانات :
تم تصميم مجموعة البيانات باستخدام رمز الرمز المميز للنموذج ، ويتم إضافة الرموز الخاصة مثل [PAD] إذا لم تكن موجودة بالفعل.
تدريب نموذج لورا :
يحدد الكود تدريبات التدريب المفرطات ويدرب النموذج المكيف LORA باستخدام مجموعة البيانات المقدمة. يمكن تعديل حجج التدريب مثل معدل التعلم وحجم الدُفعة وعدد الأحداث في متغير training_args .
استنتج مع نموذج لورا المدربين :
بعد التدريب ، يمكنك استخدام النموذج المدرب على تكييف LORA للاستدلال على مدخلات النص الجديدة. يوضح الرمز كيفية تحميل النموذج وجعل التنبؤات في قائمة جمل المثال.
يستخدم الرمز نموذج تصنيف النص على أساس بنية نموذج اللغة التي تم تدريبها مسبقًا. يتم تطبيق صقل Lora لتكييف هذا النموذج الذي تم تدريبه مسبقًا بكفاءة. تعمل تقنية Lora على الاستفادة من بنية الاختلافات ذات الوزن المنخفض لتحسين أداء التكيف.
للحصول على معلومات مفصلة حول تقنية Lora ، يمكنك الرجوع إلى ورقة Lora.
لتدريب النموذج المكيف لورا ، اتبع هذه الخطوات:
تثبيت المكتبات المطلوبة كما هو مذكور في قسم التثبيت.
حدد مجموعة بيانات التدريب الخاصة بك أو استخدم مجموعة بيانات SST-2 المقدمة.
تكوين بنية النموذج ومقاطعات HyperParameters في الكود.
قم بتشغيل رمز التدريب ، وسيتم ضبط النموذج باستخدام تقنية Lora على مجموعة البيانات الخاصة بك.
بعد التدريب ، يمكنك استخدام النموذج المدرب على تكييف LORA للاستدلال على مدخلات النص الجديدة. للقيام بذلك:
قم بتحميل نموذج LORA الذي تم تكييفه كما هو موضح في الكود.
رمز نص الإدخال الخاص بك باستخدام الرمز المميز للنموذج.
تمرير المدخلات الرمزية إلى النموذج لتصنيف المشاعر.
سيتوقع النموذج ما إذا كان نص الإدخال لديه شعور إيجابي أو سلبي.

