تنزيل Bitune - تنزيل رمز مصدر Bitune

Bitune

كود الذكاء الاصطناعي

1.0.0

تنزيل

Bitune: ثنائي الاتجاه تعليمات التثبيت

[ Paper ] [ Website ]

يحتوي هذا الكود المصدر على تنفيذ Bitune ، وهو يكفي لإعادة إنتاج النتائج من الورقة. يرجى ملاحظة أنه تم استخدامه لاستكشاف أفكار مختلفة ، والعديد من المكونات لها أسماء مختلفة أو تشير إلى المفاهيم غير المذكورة في الورقة.

نحن نخطط لإصدار ريبو نظيف لـ Bitune في المستقبل القريب.

LM-valuation-harness

يحتوي دليل lm-evaluation-harness على مستودع من Eleutherai/LM-Evaluation-Harness ، تم تكييفه مع طريقتنا. يمكنك تثبيته مع الأمر التالي:

pip install -e lm-evaluation-harness

إعدادات

قم بتعيين المسار المطلق الصحيح لهذا الدليل في ملف common_0.sh .
يتطلب البرنامج النصي للتقييم wandb لتسجيله. تحديث السطر 57 من eval.py مع اسم مستخدم wandb الخاص بك.

البرامج النصية

إعداد تعليمات ضبط : قم بتشغيل البرنامج النصي instruct.sh .
التدريب على المهام في اتجاه المصب : قم بتشغيل البرنامج النصي downstream.sh . تأكد من تعيين العدد الصحيح لخطوات التحديث (استنادًا إلى القيم الواردة في التذييل) ، وتفوق الخطوط المناسبة لاسم مجموعة البيانات ، والتقييمات (في أسفل للغاية) ، واسم الطريقة.
القساعد : إلغاء التغلب على خطوط الاجتثاث المحددة في ablations.sh وقم بتشغيل البرنامج النصي.

نظرة عامة موجزة على رمز _{^{السباغيتي}}

يتطلب التنفيذ بعض التعديلات على فئات نموذج Huggingface ، المتوفرة في دليل models :
- تعديل KV-Cache ، لذلك يحتفظ برسم البياني الحساب للتدرجات.
- تمت إضافة وحدات الخلط مع معاملات القابلة للدرار ( pass_scale_k ، pass_scale_v ).
- قناع الانتباه المعدل بناءً على معلمة enforce_bidir لوظيفة forward() .
- تمت إضافة مقتطف رمز داخل وظيفة forward() المسؤولة عن استدعاء غلاف Bitune .
غلاف bitune ( _pass_fn() في ملف passes.py ):
- يمرر المطالبة من خلال النموذج مرتين للحصول على مجموعتين من كيلومتر كاش ، مع تعيين محولات LORA المناسبة وأقنعة الانتباه لكل تمريرة.
- مكالمات خلط وحدات الجمع بين مجموعتين من الميزات ( pass_scale_k ، pass_scale_v ).
- هل يمر الإجابة النهائية (في حالة التدريب) ، أو يولد الرمز المميز للإجابة الأولى (للاستدلال). في حالة توليد مزيد من الرموز ، لا يُطلق على غلاف Bitune على الإطلاق ، حيث يتم الحصول على مخطط KV للمطالبة بالفعل وتخزينه ، وبالتالي يستمر الجيل كما في النموذج غير المعدل.
- يعين جميع معلمات Lora على أنها قابلة للتدريب مرة أخرى ، كما يضع مكتبة peft الافتراضية محولات غير نشطة على أنها غير قابلة للتجول.
وحدة الخلط (الفئة PassScale المحددة في models/think_gemma.py ):
- يحتوي على معاملات قابلة للتدريب لخلط مجموعتين من الميزات ، منفصلة للمفاتيح والقيم ، لذلك معاملتين لكل كتلة انتباه من النموذج.
- تحدد وظيفة forward() التي تطبق عملية الخلط بناءً على المتغير المحدد في config ( config.pass_type ). يتم تعريف طريقتنا النهائية بواسطة البديل 607 (الطريقة المستخدمة للتجارب) ، ونسخه المبسطة 801 .

إصدارات المكتبة

تم استخدام الإصدارات التالية من المكتبات:

transformers==4.38.2
peft==0.11.1
datasets==2.18.0
evaluate==0.4.0

bibtex

 @misc { kopiczko2024bitune ,
      title = { Bitune: Bidirectional Instruction-Tuning } ,
      author = { Dawid J. Kopiczko and Tijmen Blankevoort and Yuki M. Asano } ,
      year = { 2024 } ,
      eprint = { 2405.14862 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CL }
}