تنزيل promptbench - تنزيل رمز مصدر promptbench

promptbench

كود الذكاء الاصطناعي

1.0.0

تنزيل

Promsbench : مكتبة موحدة لتقييم وفهم نماذج اللغة الكبيرة.
ورقة · الوثائق · المتصدرين · المزيد من الأوراق

جدول المحتويات

الأخبار والتحديثات
مقدمة
تثبيت
الاستخدام
مجموعات البيانات والنماذج
النتائج القياسية
شكر وتقدير

الأخبار والتحديثات

[19/08/2024] إضافة Dyval 2 (ICML 2024).
[19/08/2024] دمج rembereval ، وهي طريقة تقييم فعالة متعددة التعبير ، في هذا المستودع.
[26/05/2024] أضف دعمًا لـ GPT-4O.
[13/03/2024] أضف دعمًا للنماذج متعددة الوسائط ومجموعات البيانات.
[05/01/2024] أضف دعمًا لـ BigBench Hard و Drop و Arc.
[16/12/2023] أضف دعمًا للجوزاء ، Mistral ، Mixtral ، Baichuan ، Yi Models.
[15/12/2023] إضافة تعليمات مفصلة للمستخدمين لإضافة وحدات جديدة (نماذج ، مجموعات البيانات ، إلخ) أمثلة/add_new_modules.md.
[05/12/2023] نشرت Promsbench 0.0.1.

مقدمة

Promsbench هي حزمة بيثون قائمة على Pytorch لتقييم نماذج اللغة الكبيرة (LLMS). ويوفر واجهات برمجة التطبيقات سهلة الاستخدام للباحثين لإجراء تقييم على LLMS. تحقق من التقرير الفني: https://arxiv.org/abs/2312.07910.

ماذا توفر kordbench حاليا؟

تقييم أداء النموذج السريع: نحن نقدم واجهة سهلة الاستخدام تسمح ببناء النماذج السريعة وتحميل مجموعات البيانات وتقييم أداء النموذج.
الهندسة الفورية: قمنا بتنفيذ العديد من أساليب الهندسة السريعة. على سبيل المثال: سلسلة قليلة من الأفكار [1] ، حجة العاطفة [2] ، خبير يطالب [3] وهلم جرا.
تقييم المطالبات العدائية: هجمات موجهة المدمجة المدمجة [4] ، وتمكين الباحثين من محاكاة هجمات عدوانية عدوانية على النماذج وتقييم متانة (انظر التفاصيل هنا).
التقييم الديناميكي للتخفيف من تلوث بيانات الاختبار المحتمل: قمنا بدمج إطار التقييم الديناميكي Dyval [5] ، والذي يولد عينات التقييم أثناء التنقل مع التعقيد المتحكم فيه.
التقييم الفعال متعدد المعرض : قمنا بدمج طريقة التقييم المتعددة الفعالة متعددة المعرضات البرائحة [8]. تستخدم هذه الطريقة أداء LLMS على كمية صغيرة من البيانات لإنشاء نموذج يشبه IRT. ثم يتم استخدام هذا النموذج للتنبؤ بأداء LLMs على البيانات غير المرئية. تُظهر الاختبارات على MMLU و BBH و Lmentry أن هذه الطريقة تتطلب أخذ عينات فقط 5 ٪ من البيانات لتقليل الخطأ بين الأداء المقدر والأداء الفعلي إلى حوالي 2 ٪.

تثبيت

تثبيت عبر `pip`

نحن نقدم حزمة Python Promsbench للمستخدمين الذين يرغبون في بدء التقييم بسرعة. ببساطة الجري:

pip install promptbench

لاحظ أن تثبيت PIP يمكن أن يكون وراء التحديثات الأخيرة. لذلك ، إذا كنت ترغب في استخدام أحدث الميزات أو التطوير بناءً على الكود الخاص بنا ، فيجب عليك التثبيت عبر Github.

تثبيت عبر جيثب

أولاً ، استنساخ الريبو:

git clone [email protected]:microsoft/promptbench.git

ثم،

 cd promptbench

لتثبيت الحزم المطلوبة ، يمكنك إنشاء بيئة كوندا:

conda create --name promptbench python=3.9
conda activate promptbench

ثم استخدم PIP لتثبيت الحزم المطلوبة:

pip install -r requirements.txt

لاحظ أن هذا فقط تثبيت حزم بيثون الأساسية. بالنسبة للهجمات السريعة ، ستحتاج أيضًا إلى تثبيت TextAttack.

الاستخدام

سهلة الاستخدام والتمديد. سيساعدك الذهاب إلى الأمثلة أدناه على التعرف على PromsBench للاستخدام السريع ، أو تقييم مجموعات البيانات الحالية و LLMS ، أو إنشاء مجموعات البيانات الخاصة بك.

يرجى الاطلاع على التثبيت لتثبيت promsbench أولاً.

إذا تم تثبيت ProserBench عبر pip ، يمكنك ببساطة القيام:

 import promptbench as pb

إذا قمت بتثبيت promsbench من git وترغب في استخدامه في مشاريع أخرى:

 import sys

# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )

# Now you can import promptbench by name
import promptbench as pb

نحن نقدم البرامج التعليمية لـ:

تقييم النماذج على المعايير الحالية: يرجى الرجوع إلى الأمثلة/basic.ipynb لبناء خط أنابيب التقييم الخاص بك. لخط أنابيب التقييم متعدد الوسائط ، يرجى الرجوع إلى الأمثلة/multimodal.ipynb
اختبر آثار تقنيات المطالبة المختلفة:
فحص المتانة للهجمات السريعة ، يرجى الرجوع إلى الأمثلة/report_attack.ipynb لبناء الهجمات.
استخدم Dyval للتقييم: يرجى الرجوع إلى أمثلة/dyval.ipynb لبناء مجموعات بيانات dyval.
تقييم فعال متعدد المعادلة باستخدام ormereval : يرجى الرجوع إلى أمثلة/كفاءة_

المكونات المنفذة

يدعم PromsBench حاليًا مجموعات البيانات المختلفة ، والموديلات ، وطرق الهندسة المطالبة ، وهجمات الخصوم ، وأكثر من ذلك. اهلا وسهلا بك لإضافة المزيد.

مجموعات البيانات

مجموعات بيانات اللغة:
- Glue: SST-2 ، Cola ، QQP ، MRPC ، Mnli ، Qnli ، Rte ، Wnli
- mmlu
- صعبة المقاعد الكبيرة (منطق Bool ، أقواس صالحة ، تاريخ ...)
- الرياضيات
- GSM8K
- فرقة V2
- IWSLT 2017
- الأمم المتحدة متعددة
- CSQA (Comminense QA)
- Numersense
- QASC
- الحرف الأخير متسلسل
مجموعات بيانات متعددة الوسائط:
- Vqav2
- nocaps
- MMMU
- Mathvista
- AI2D
- Chartqa
- Scienceqa

النماذج

نماذج اللغة:

نماذج مفتوحة المصدر:
- Google/Flan-T5-Large
- Databricks/dolly-V1-6b
- سلسلة LLAMA2
- Vicuna-13B ، Vicuna-13B-V1.3
- الدماغ/الدماغ-GPT-13B
- Eleutherai/GPT-NEOX-20B
- Google/Flan-ul2
- PHI-1.5 و PHI-2
نماذج الملكية
- نخيل 2
- GPT-3.5
- GPT-4
- Gemini Pro

نماذج متعددة الوسائط:

نماذج مفتوحة المصدر:
- Blip2
- llava
- Qwen-VL ، Qwen-VL-Chat
- internlm-xcomposer2-vl
نماذج الملكية
- GPT-4V
- Gemini Pro Vision
- Qwen-VL-Max ، Qwen-VL-Plus

الهندسة الفورية

سلسلة الأفكار (COT) [1]
العاطفة [2]
طالبة خبير [3]
صفري سلسلة من الأفكار
المعرفة المولدة [6]
على الأقل لمعظم [7]

هجمات الخصومة

هجوم على مستوى الشخصية
- DeepWordBug
- TextBugger
هجوم على مستوى الكلمات
- TextFooler
- Bertattack
هجوم على مستوى الجملة
- قائمة المراجعة
- الإرشاد
هجوم على المستوى الدلالي
- الهجوم المصنوع من الإنسان

البروتوكولات والتحليل

التقييم القياسي
التقييم الديناميكي
التقييم الدلالي
النتائج القياسية
تحليل التصور
تحليل قابلية النقل
تحليل تردد الكلمة

النتائج القياسية

يرجى الرجوع إلى موقعنا القياسي للحصول على النتائج القياسية على الهجمات الفورية والهندسة الفورية والتقييم الديناميكي Dyval.

شكر وتقدير

TextAttack
قالب ReadMe
نشكر المتطوعين: Hanyuan Zhang ، Lingrui Li ، Yating Zhou على إجراء التجربة الدلالية للحفاظ على المعيار الفوري.

مرجع

[1] جيسون وي ، وآخرون. "سلسلة من الفكر تثير التفكير في نماذج اللغة الكبيرة." Arxiv preprint Arxiv: 2201.11903 (2022).

[2] تشنغ لي ، وآخرون. "العاطفة: الاستفادة من علم النفس لنماذج اللغة الكبيرة تعزيز من خلال التحفيز العاطفي." Arxiv preprint Arxiv: 2307.11760 (2023).

[3] Benfeng Xu ، وآخرون. "الخبراء: توجيه نماذج لغة كبيرة لتكون خبراء متميزين" Arxiv preprint arxiv: 2305.14688 (2023).

[4] تشو ، كايجي ، وآخرون. "Promsbench: نحو تقييم متانة نماذج اللغة الكبيرة على المطالبات العدائية." Arxiv preprint Arxiv: 2306.04528 (2023).

[5] تشو ، كايجي ، وآخرون. "Dyval: التقييم الديناميكي المستنير الرسم البياني لنماذج اللغة الكبيرة." Arxiv preprint Arxiv: 2309.17167 (2023).

[6] Liu J ، Liu A ، Lu X ، et al. ولدت المعرفة التي تدفع للمنطق المنطقي [J]. Arxiv preprint Arxiv: 2110.08387 ، 2021.

[7] Zhou D ، Schärli N ، Hou L ، et al. يتيح المطالبة الأقل من حيث تمكين التفكير المعقد في نماذج اللغة الكبيرة [J]. Arxiv preprint Arxiv: 2205.10625 ، 2022.

[8] فيليبي مايا بولو ، وآخرون. "ordereval: تقييم فعال متعدد المعرض لنماذج اللغة." Arxiv preprint Arxiv: 2405.17202.

نقلاً

يرجى الاستشهاد بنا إذا وجدت هذا المشروع مفيدًا لمشروعك/الورق:

 @article{zhu2023promptbench2,
  title={PromptBench: A Unified Library for Evaluation of Large Language Models},
  author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
  journal={arXiv preprint arXiv:2312.07910},
  year={2023}
}

@article{zhu2023promptbench,
  title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
  author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
  journal={arXiv preprint arXiv:2306.04528},
  year={2023}
}

@article{zhu2023dyval,
  title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
  author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
  journal={arXiv preprint arXiv:2309.17167},
  year={2023}
}

@article{chang2023survey,
  title={A survey on evaluation of large language models},
  author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
  journal={arXiv preprint arXiv:2307.03109},
  year={2023}
}

المساهمة

يرحب هذا المشروع بالمساهمات والاقتراحات. تطلب منك معظم المساهمات الموافقة على اتفاقية ترخيص المساهم (CLA) مع إعلان أن لديك الحق في ذلك في الواقع ، ويفعلنا في الواقع حقوق استخدام مساهمتك. لمزيد من التفاصيل ، تفضل بزيارة https://cla.opensource.microsoft.com.

عند إرسال طلب سحب ، سيحدد CLA Bot تلقائيًا ما إذا كنت بحاجة إلى توفير CLA وتزيين العلاقات العامة بشكل مناسب (على سبيل المثال ، فحص الحالة ، التعليق). ببساطة اتبع الإرشادات التي يقدمها الروبوت. ستحتاج فقط إلى القيام بذلك مرة واحدة عبر جميع عمليات إعادة الشراء باستخدام CLA لدينا.

اعتمد هذا المشروع رمز سلوك المصدر المفتوح Microsoft. لمزيد من المعلومات ، راجع مدونة الشهادة الأسئلة الشائعة أو الاتصال بـ [email protected] مع أي أسئلة أو تعليقات إضافية.

إذا كان لديك اقتراح من شأنه أن يجعل Promsbench أفضل ، فيرجى تورك الريبو وإنشاء طلب سحب. يمكنك أيضًا فتح مشكلة مع علامة "تحسين". لا تنسى إعطاء المشروع نجمًا! شكرًا لك مرة أخرى!

شوكة المشروع
قم بإنشاء فرعك ( git checkout -b your_name/your_branch )
ارتكب التغييرات الخاصة بك ( git commit -m 'Add some features' )
ادفع إلى الفرع ( git push origin your_name/your_branch )
افتح طلب سحب

علامات تجارية

قد يحتوي هذا المشروع على علامات تجارية أو شعارات للمشاريع أو المنتجات أو الخدمات. يخضع الاستخدام المعتمد للعلامات التجارية أو الشعارات Microsoft ويجب أن يتبعوا إرشادات Microsoft التجارية والعلامة التجارية. يجب ألا يسبب استخدام العلامات التجارية Microsoft أو الشعارات في إصدارات معدلة من هذا المشروع الارتباك أو يعني رعاية Microsoft. يخضع أي استخدام للعلامات التجارية أو الشعارات من طرف ثالث لسياسات تلك الطرف الثالث.

يوسع

معلومات إضافية