نماذج اللغة الكبيرة باهظة الثمن وبطيئة ، وتقييمها على مجموعات البيانات الحديثة العملاقة تجعل الأمر أسوأ.
إذا كانت هناك طريقة فقط لتحديد مجموعة فرعية ذات معنى ( وصغيرة ) من المجموعة والحصول على تقييم دقيق للغاية .....
انتظر ، يبدو مثل تحسين بايزي!
يعمل Bocoel في الخطوات التالية:
يمكن إدارة التقييمات التي تم إنشاؤها بسهولة بواسطة الأداة المساعدة المدير المقدم.
على حد علمنا ، هذا هو أول عمل يهدف إلى تقليل تكاليف الحساب أثناء التقييم (القياس) بميزانية (ربما ديناميكية).
GPT2 و Pythia و LLAMA والمزيد من خلال التكامل مع محولات Huggingface ومجموعات البياناتمثل ما تراه؟ يرجى النظر في إعطاء هذا نجم (★)!
ببساطة ، يهدف تحسين Bayesian إلى تحسين هدف الاستكشاف (المنطقة الأرجواني في الصورة) أو كائن الاستغلال (ارتفاع النقاط السوداء). يستخدم العمليات الغوسية كعمود خارجي للاستدلال ، ويستخدم وظيفة الاستحواذ لتحديد مكان عينة بعد ذلك. انظر هنا للحصول على مقدمة أكثر تعمقا.
نظرًا لأن تحسين Bayesian يعمل بشكل جيد مع نموذج صندوق أسود باهظ التكلفة (Paraphrase: LLM) ، فهو مثالي لحالة الاستخدام هذه. يستخدم Bocoel تحسين Bayesian باعتباره العمود الفقري لاستكشاف مساحة التضمين التي قدمها Corpus ، والتي تتيح لها اختيار مجموعة فرعية جيدة تتصرف كقطعة صغيرة من المجموعة.
LLMs بطيئة بشكل مؤلم ، وخاصة تلك التوليدية (وهو ما يشار إليه عادة باسم LLM) ، لأن توليد التسلسل متسلسل بطبيعته.
على الرغم من متطلبات bocoel لاستخدام أحد التضمين لتشفير المجموعة بأكملها ، فإن التضمين أسرع من LLMs حسب أوامر الحجم ويتم اكتساب الوقت مرة أخرى من خلال أي مدخرات في تقييم LLMs.
لا أريد تبعيات اختيارية:
pip install bocoel
أعطني التجربة الكاملة (جميع التبعيات الاختيارية):
pip install "bocoel[all]"
راجع أمثلة المجلد/getting_started لاستخدام مبسط للمكتبة للبدء مع بضعة أسطر من التعليمات البرمجية.
أمثلة الاستخدام تحت examples المجلد. يمكن العثور على مرجع API هنا.
أراد المساهمون! لا تخجل. لا تتردد في تقديم المشكلات و PRS. بالنسبة إلى PRS ، يرجى اتباع دليل المساهمة وقواعد السلوك. تؤخذ الانفتاح والشمولية على محمل الجد.
الرمز متاح بموجب ترخيص BSD-3.
إذا وجدت هذا المشروع مفيدًا في بحثك ، فيرجى الاستشهاد بهذا العمل
@misc{bocoel2024,
title = {BoCoEL: Bayesian Optimization as a Coverage Tool for Evaluating Large Language Models},
url = {https://bocoel.rentruewang.com/research/},
author = {Wang, RenChu},
month = {January},
year = {2024}
}