
PromptBench : Eine einheitliche Bibliothek zur Bewertung und Verständnis von großsprachigen Modellen.
Papier · Dokumentation · Rangliste · mehr Papiere
PromptBench ist ein Python-Paket auf Pytorch-basiertem Python zur Bewertung von großsprachigen Modellen (LLMs). Es bietet benutzerfreundliche APIs für Forscher, um eine Bewertung auf LLMs durchzuführen. Überprüfen Sie den technischen Bericht: https://arxiv.org/abs/2312.07910.
pip einbauenWir bieten Benutzern, die schnell mit der Bewertung beginnen möchten, ein Python -Paket ein . Einfach rennen:
pip install promptbenchBeachten Sie, dass die PIP -Installation hinter den letzten Updates stehen kann. Wenn Sie also die neuesten Funktionen verwenden oder basierend auf unserem Code entwickeln möchten, sollten Sie über GitHub installieren.
Zunächst klonen Sie das Repo:
git clone [email protected]:microsoft/promptbench.gitDann,
cd promptbenchUm die erforderlichen Pakete zu installieren, können Sie eine Conda -Umgebung erstellen:
conda create --name promptbench python=3.9
conda activate promptbenchVerwenden Sie dann PIP, um die erforderlichen Pakete zu installieren:
pip install -r requirements.txtBeachten Sie, dass diese nur grundlegenden Python -Pakete installiert wurden. Für schnelle Angriffe müssen Sie auch Textangriffe installieren.
promptBench ist einfach zu bedienen und zu erweitern. Wenn Sie die folgenden Beispiele durchlaufen, können Sie sich mit forderungsBench für die schnelle Verwendung vertraut machen, vorhandene Datensätze und LLMs bewerten oder eigene Datensätze und Modelle erstellen.
Bitte beachten Sie die Installation, um die Eingabeaufforderung zuerst zu installieren.
Wenn Eingabeaufforderung über pip installiert ist, können Sie einfach:
import promptbench as pb Wenn Sie die Eingabeaufforderung von git installiert haben und es in anderen Projekten verwenden möchten:
import sys
# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )
# Now you can import promptbench by name
import promptbench as pbWir bieten Tutorials für:
PromptBench unterstützt derzeit verschiedene Datensätze, Modelle, schnelle technische Methoden, kontroverse Angriffe und vieles mehr. Sie können gerne mehr hinzufügen.
Sprachmodelle:
Multimodale Modelle:
In unserer Benchmark -Website finden Sie Benchmark -Ergebnisse zu schnellen Angriffen, einem schnellen technischen und dynamischen Bewertungsdyval.
[1] Jason Wei et al. "Die Kette des Gedankens führt zu Begründungen in Großsprachenmodellen." ARXIV Preprint Arxiv: 2201.11903 (2022).
[2] Cheng Li, et al. "EmotionPrompt: Nutzung der Psychologie für große Sprachmodelle Verbesserung durch emotionale Reize." ARXIV Preprint Arxiv: 2307.11760 (2023).
[3] Benfeng Xu, et al. "ExpertPrompting: Anweisungen großer Sprachmodelle, um ausgezeichnete Experten zu sein" Arxiv Preprint Arxiv: 2305.14688 (2023).
[4] Zhu, Kaijie et al. "PromptBench: Um die Robustheit großer Sprachmodelle auf kontroversen Aufforderungen zu bewerten." ARXIV Preprint Arxiv: 2306.04528 (2023).
[5] Zhu, Kaijie et al. "Dyval: Graph-informierte dynamische Bewertung von Großsprachmodellen." ARXIV Preprint Arxiv: 2309.17167 (2023).
[6] Liu J, Liu A, Lu X, et al. Erzeugte Kenntnisse, die für gesunden Menschenverständnisse auferlegt werden [j]. Arxiv Preprint Arxiv: 2110.08387, 2021.
[7] Zhou D., Schärli N., Hou L. et al. Die am wenigsten zu meistversteigende Erscheinung ermöglicht komplexes Denken in Großsprachenmodellen [j]. ARXIV Preprint Arxiv: 2205.10625, 2022.
[8] Felipe Maia Polo et al. "Proportional: Effiziente Multi-Prompt-Bewertung von Sprachmodellen." Arxiv Preprint Arxiv: 2405.17202.
Bitte zitieren Sie uns, wenn Sie dieses Projekt für Ihr Projekt/Ihre Arbeit hilfreich finden:
@article{zhu2023promptbench2,
title={PromptBench: A Unified Library for Evaluation of Large Language Models},
author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
journal={arXiv preprint arXiv:2312.07910},
year={2023}
}
@article{zhu2023promptbench,
title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
journal={arXiv preprint arXiv:2306.04528},
year={2023}
}
@article{zhu2023dyval,
title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
journal={arXiv preprint arXiv:2309.17167},
year={2023}
}
@article{chang2023survey,
title={A survey on evaluation of large language models},
author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
journal={arXiv preprint arXiv:2307.03109},
year={2023}
}
Dieses Projekt begrüßt Beiträge und Vorschläge. In den meisten Beiträgen müssen Sie einer Mitarbeiters Lizenzvereinbarung (CLA) zustimmen, in der Sie erklären, dass Sie das Recht haben und uns tatsächlich tun, um uns die Rechte zu gewähren, Ihren Beitrag zu verwenden. Weitere Informationen finden Sie unter https://cla.opensource.microsoft.com.
Wenn Sie eine Pull -Anfrage einreichen, bestimmt ein CLA -Bot automatisch, ob Sie einen CLA angeben und die PR angemessen dekorieren müssen (z. B. Statusprüfung, Kommentar). Befolgen Sie einfach die vom Bot bereitgestellten Anweisungen. Sie müssen dies nur einmal über alle Repos mit unserem CLA tun.
Dieses Projekt hat den Microsoft Open Source -Verhaltenscode übernommen. Weitere Informationen finden Sie im FAQ oder wenden Sie sich an [email protected] mit zusätzlichen Fragen oder Kommentaren.
Wenn Sie einen Vorschlag haben, der forderungsbench besser wird, geben Sie bitte das Repo und erstellen Sie eine Pull -Anfrage. Sie können auch einfach ein Problem mit dem Tag "Verbesserung" eröffnen. Vergessen Sie nicht, dem Projekt einen Stern zu geben! Danke noch einmal!
git checkout -b your_name/your_branch )git commit -m 'Add some features' )git push origin your_name/your_branchDieses Projekt kann Marken oder Logos für Projekte, Produkte oder Dienstleistungen enthalten. Die autorisierte Verwendung von Microsoft -Marken oder Logos unterliegt den Marken- und Markenrichtlinien von Microsoft und muss folgen. Die Verwendung von Microsoft -Marken oder Logos in geänderten Versionen dieses Projekts darf keine Verwirrung verursachen oder Microsoft -Sponsoring implizieren. Jede Verwendung von Marken oder Logos von Drittanbietern unterliegt den Richtlinien dieses Drittanbieters.