
Promsbench : مكتبة موحدة لتقييم وفهم نماذج اللغة الكبيرة.
ورقة · الوثائق · المتصدرين · المزيد من الأوراق
Promsbench هي حزمة بيثون قائمة على Pytorch لتقييم نماذج اللغة الكبيرة (LLMS). ويوفر واجهات برمجة التطبيقات سهلة الاستخدام للباحثين لإجراء تقييم على LLMS. تحقق من التقرير الفني: https://arxiv.org/abs/2312.07910.
pipنحن نقدم حزمة Python Promsbench للمستخدمين الذين يرغبون في بدء التقييم بسرعة. ببساطة الجري:
pip install promptbenchلاحظ أن تثبيت PIP يمكن أن يكون وراء التحديثات الأخيرة. لذلك ، إذا كنت ترغب في استخدام أحدث الميزات أو التطوير بناءً على الكود الخاص بنا ، فيجب عليك التثبيت عبر Github.
أولاً ، استنساخ الريبو:
git clone [email protected]:microsoft/promptbench.gitثم،
cd promptbenchلتثبيت الحزم المطلوبة ، يمكنك إنشاء بيئة كوندا:
conda create --name promptbench python=3.9
conda activate promptbenchثم استخدم PIP لتثبيت الحزم المطلوبة:
pip install -r requirements.txtلاحظ أن هذا فقط تثبيت حزم بيثون الأساسية. بالنسبة للهجمات السريعة ، ستحتاج أيضًا إلى تثبيت TextAttack.
سهلة الاستخدام والتمديد. سيساعدك الذهاب إلى الأمثلة أدناه على التعرف على PromsBench للاستخدام السريع ، أو تقييم مجموعات البيانات الحالية و LLMS ، أو إنشاء مجموعات البيانات الخاصة بك.
يرجى الاطلاع على التثبيت لتثبيت promsbench أولاً.
إذا تم تثبيت ProserBench عبر pip ، يمكنك ببساطة القيام:
import promptbench as pb إذا قمت بتثبيت promsbench من git وترغب في استخدامه في مشاريع أخرى:
import sys
# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )
# Now you can import promptbench by name
import promptbench as pbنحن نقدم البرامج التعليمية لـ:
يدعم PromsBench حاليًا مجموعات البيانات المختلفة ، والموديلات ، وطرق الهندسة المطالبة ، وهجمات الخصوم ، وأكثر من ذلك. اهلا وسهلا بك لإضافة المزيد.
نماذج اللغة:
نماذج متعددة الوسائط:
يرجى الرجوع إلى موقعنا القياسي للحصول على النتائج القياسية على الهجمات الفورية والهندسة الفورية والتقييم الديناميكي Dyval.
[1] جيسون وي ، وآخرون. "سلسلة من الفكر تثير التفكير في نماذج اللغة الكبيرة." Arxiv preprint Arxiv: 2201.11903 (2022).
[2] تشنغ لي ، وآخرون. "العاطفة: الاستفادة من علم النفس لنماذج اللغة الكبيرة تعزيز من خلال التحفيز العاطفي." Arxiv preprint Arxiv: 2307.11760 (2023).
[3] Benfeng Xu ، وآخرون. "الخبراء: توجيه نماذج لغة كبيرة لتكون خبراء متميزين" Arxiv preprint arxiv: 2305.14688 (2023).
[4] تشو ، كايجي ، وآخرون. "Promsbench: نحو تقييم متانة نماذج اللغة الكبيرة على المطالبات العدائية." Arxiv preprint Arxiv: 2306.04528 (2023).
[5] تشو ، كايجي ، وآخرون. "Dyval: التقييم الديناميكي المستنير الرسم البياني لنماذج اللغة الكبيرة." Arxiv preprint Arxiv: 2309.17167 (2023).
[6] Liu J ، Liu A ، Lu X ، et al. ولدت المعرفة التي تدفع للمنطق المنطقي [J]. Arxiv preprint Arxiv: 2110.08387 ، 2021.
[7] Zhou D ، Schärli N ، Hou L ، et al. يتيح المطالبة الأقل من حيث تمكين التفكير المعقد في نماذج اللغة الكبيرة [J]. Arxiv preprint Arxiv: 2205.10625 ، 2022.
[8] فيليبي مايا بولو ، وآخرون. "ordereval: تقييم فعال متعدد المعرض لنماذج اللغة." Arxiv preprint Arxiv: 2405.17202.
يرجى الاستشهاد بنا إذا وجدت هذا المشروع مفيدًا لمشروعك/الورق:
@article{zhu2023promptbench2,
title={PromptBench: A Unified Library for Evaluation of Large Language Models},
author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
journal={arXiv preprint arXiv:2312.07910},
year={2023}
}
@article{zhu2023promptbench,
title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
journal={arXiv preprint arXiv:2306.04528},
year={2023}
}
@article{zhu2023dyval,
title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
journal={arXiv preprint arXiv:2309.17167},
year={2023}
}
@article{chang2023survey,
title={A survey on evaluation of large language models},
author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
journal={arXiv preprint arXiv:2307.03109},
year={2023}
}
يرحب هذا المشروع بالمساهمات والاقتراحات. تطلب منك معظم المساهمات الموافقة على اتفاقية ترخيص المساهم (CLA) مع إعلان أن لديك الحق في ذلك في الواقع ، ويفعلنا في الواقع حقوق استخدام مساهمتك. لمزيد من التفاصيل ، تفضل بزيارة https://cla.opensource.microsoft.com.
عند إرسال طلب سحب ، سيحدد CLA Bot تلقائيًا ما إذا كنت بحاجة إلى توفير CLA وتزيين العلاقات العامة بشكل مناسب (على سبيل المثال ، فحص الحالة ، التعليق). ببساطة اتبع الإرشادات التي يقدمها الروبوت. ستحتاج فقط إلى القيام بذلك مرة واحدة عبر جميع عمليات إعادة الشراء باستخدام CLA لدينا.
اعتمد هذا المشروع رمز سلوك المصدر المفتوح Microsoft. لمزيد من المعلومات ، راجع مدونة الشهادة الأسئلة الشائعة أو الاتصال بـ [email protected] مع أي أسئلة أو تعليقات إضافية.
إذا كان لديك اقتراح من شأنه أن يجعل Promsbench أفضل ، فيرجى تورك الريبو وإنشاء طلب سحب. يمكنك أيضًا فتح مشكلة مع علامة "تحسين". لا تنسى إعطاء المشروع نجمًا! شكرًا لك مرة أخرى!
git checkout -b your_name/your_branch )git commit -m 'Add some features' )git push origin your_name/your_branch )قد يحتوي هذا المشروع على علامات تجارية أو شعارات للمشاريع أو المنتجات أو الخدمات. يخضع الاستخدام المعتمد للعلامات التجارية أو الشعارات Microsoft ويجب أن يتبعوا إرشادات Microsoft التجارية والعلامة التجارية. يجب ألا يسبب استخدام العلامات التجارية Microsoft أو الشعارات في إصدارات معدلة من هذا المشروع الارتباك أو يعني رعاية Microsoft. يخضع أي استخدام للعلامات التجارية أو الشعارات من طرف ثالث لسياسات تلك الطرف الثالث.