promptbench Download - promptbench für Quellcode herunterladen

promptbench

AI-Quellcode

1.0.0

Herunterladen

PromptBench : Eine einheitliche Bibliothek zur Bewertung und Verständnis von großsprachigen Modellen.
Papier · Dokumentation · Rangliste · mehr Papiere

Inhaltsverzeichnis

Nachrichten und Updates
Einführung
Installation
Verwendung
Datensätze und Modelle
Benchmark -Ergebnisse
Anerkennung

Nachrichten und Updates

[19/08/2024] Dyval 2 hinzufügen (ICML 2024).
[19/08/2024] Fusion Properteval, eine effiziente Multi-Prompt-Bewertungsmethode, in dieses Repository.
[26/05/2024] Fügen Sie Unterstützung für GPT-4o hinzu.
[13/03/2024] Fügen Sie Unterstützung für multi-modale Modelle und Datensätze hinzu.
[05/01/2024] Fügen Sie Unterstützung für BigBench Hard-, Drop-, ARC -Datensätze hinzu.
[16/12/2023] Fügen Sie Unterstützung für Gemini, Mistral, Mixtral, Baichuan, Yi -Modelle hinzu.
[15/12/2023] Fügen Sie den Benutzern detaillierte Anweisungen hinzu, um neue Module (Modelle, Datensätze usw.) hinzuzufügen/add_new_modules.md.
[05/12/2023] Veröffentlichte Eingabeaufforderung 0,0.1.

Einführung

PromptBench ist ein Python-Paket auf Pytorch-basiertem Python zur Bewertung von großsprachigen Modellen (LLMs). Es bietet benutzerfreundliche APIs für Forscher, um eine Bewertung auf LLMs durchzuführen. Überprüfen Sie den technischen Bericht: https://arxiv.org/abs/2312.07910.

Was bietet promptbench derzeit?

Schnellmodell-Leistungsbewertung: Wir bieten eine benutzerfreundliche Schnittstelle an, die das Erstellen von Schnellmodellern, das Laden von Datensatz und die Bewertung der Modellleistung ermöglicht.
Schnelltechnik: Wir haben mehrere schnelle Engineering -Methoden implementiert. Zum Beispiel: Wenige Shot-Kette des Gedankens [1], Emotionsaufforderung [2], Expertenaufforderung [3] und so weiter.
Bewertung von kontroversen Eingabeaufforderungen: promptBench-Integrierte Eingabeaufforderung [4], sodass die Forscher Black-Box-Gegner-Eingabeaufforderung an Modelle simulieren und ihre Robustheit bewerten (siehe Details hier).
Dynamische Bewertung zur Minderung potenzieller Testdatenkontamination: Wir haben den dynamischen Bewertungsrahmen Dyval [5] integriert, der Bewertungsproben im Glanz mit kontrollierter Komplexität erzeugt.
Effiziente Multi-Prompt-Evaluierung : Wir haben die effiziente Multi-Prompt-Bewertungsmethode promptVal integriert [8]. Diese Methode verwendet die Leistung von LLMs für eine kleine Datenmenge, um ein IRT-ähnliches Modell zu erstellen. Dieses Modell wird dann verwendet, um die Leistung von LLMs für unsichtbare Daten vorherzusagen. Tests an MMLU, BBH und Lmentry zeigen, dass diese Methode nur 5% der Daten erfordert, um den Fehler zwischen der geschätzten und der tatsächlichen Leistung auf rund 2% zu verringern.

Installation

Über `pip` einbauen

Wir bieten Benutzern, die schnell mit der Bewertung beginnen möchten, ein Python -Paket ein . Einfach rennen:

pip install promptbench

Beachten Sie, dass die PIP -Installation hinter den letzten Updates stehen kann. Wenn Sie also die neuesten Funktionen verwenden oder basierend auf unserem Code entwickeln möchten, sollten Sie über GitHub installieren.

Installieren Sie über GitHub

Zunächst klonen Sie das Repo:

git clone [email protected]:microsoft/promptbench.git

Dann,

 cd promptbench

Um die erforderlichen Pakete zu installieren, können Sie eine Conda -Umgebung erstellen:

conda create --name promptbench python=3.9
conda activate promptbench

Verwenden Sie dann PIP, um die erforderlichen Pakete zu installieren:

pip install -r requirements.txt

Beachten Sie, dass diese nur grundlegenden Python -Pakete installiert wurden. Für schnelle Angriffe müssen Sie auch Textangriffe installieren.

Verwendung

promptBench ist einfach zu bedienen und zu erweitern. Wenn Sie die folgenden Beispiele durchlaufen, können Sie sich mit forderungsBench für die schnelle Verwendung vertraut machen, vorhandene Datensätze und LLMs bewerten oder eigene Datensätze und Modelle erstellen.

Bitte beachten Sie die Installation, um die Eingabeaufforderung zuerst zu installieren.

Wenn Eingabeaufforderung über pip installiert ist, können Sie einfach:

 import promptbench as pb

Wenn Sie die Eingabeaufforderung von git installiert haben und es in anderen Projekten verwenden möchten:

 import sys

# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )

# Now you can import promptbench by name
import promptbench as pb

Wir bieten Tutorials für:

Bewerten Sie Modelle zu vorhandenen Benchmarks: Weitere Informationen finden Sie in den Beispielen/Basic.ipynb, um Ihre Bewertungspipeline zu erstellen. Eine multimodale Bewertungspipeline finden Sie unter Beispiele/multimodal.ipynb
Testen Sie die Auswirkungen verschiedener Aufforderungstechniken:
Untersuchen Sie die Robustheit für schnelle Angriffe . Weitere Informationen finden Sie unter Beispiele/fordert_attack.ipynb, um die Angriffe zu konstruieren.
Verwenden Sie Dyval zur Bewertung: Siehe Beispiele/dyval.ipynb, um Dyval -Datensätze zu konstruieren.
Effiziente Multi-Prompt-Bewertung unter Verwendung von Proportional : Siehe Beispiele/effizient_multi_prompt_eval.ipynb

Implementierte Komponenten

PromptBench unterstützt derzeit verschiedene Datensätze, Modelle, schnelle technische Methoden, kontroverse Angriffe und vieles mehr. Sie können gerne mehr hinzufügen.

Datensätze

Sprachdatensätze:
- Kleber: SST-2, COLA, QQP, MRPC, MNLI, QNLI, RTE, WNLI
- MMLU
- Big-Bank Hard (Bool Logic, gültige Klammern, Datum ...)
- Mathe
- GSM8K
- Squad V2
- IWSLT 2017
- UN multi
- CSQA (Commonsense QA)
- Numerse
- Qasc
- Letzter Brief verkettet
Multimodale Datensätze:
- VQAV2
- Nokaps
- MMMU
- Mathvista
- Ai2d
- Chartqa
- Scienceqa

Modelle

Sprachmodelle:

Open-Source-Modelle:
- Google/Flan-T5-Large
- Databricks/Dolly-V1-6b
- LAMA2 -Serie
- Vicuna-13b, Vicuna-13b-V1.3
- Cerebras/Cerebras-GPT-13b
- Eleutherai/GPT-NEOX-20B
- Google/Flan-ul2
- PHI-1.5 und PHI-2
Proprietäre Modelle
- Palm 2
- GPT-3.5
- GPT-4
- Gemini Pro

Multimodale Modelle:

Open-Source-Modelle:
- Blip2
- Llava
- Qwen-VL, Qwen-VL-Chat
- Internlm-Xcomposer2-VL
Proprietäre Modelle
- GPT-4V
- Gemini Pro Vision
- Qwen-vl-max, Qwen-vl-plus

Schnelltechnik

Kette der Gedanken (COT) [1]
Emotionprompt [2]
Expertenaufforderung [3]
Null-Shot-Kette des Gedankens
Erzeugter Wissen [6]
Am wenigsten zu den meisten [7]

Gegentliche Angriffe

Angriff auf Charakterebene
- Deepwordbug
- Textbugger
Angriff auf Wortebene
- Textfächer
- Bertattack
Satzstufe
- Checkliste
- Stressetest
Angriff auf semantischer Ebene
- Angriff von Menschen

Protokolle und Analyse

Standardbewertung
Dynamische Bewertung
Semantische Bewertung
Benchmark -Ergebnisse
Visualisierungsanalyse
Übertragbarkeitsanalyse
Wortfrequenzanalyse

Benchmark -Ergebnisse

In unserer Benchmark -Website finden Sie Benchmark -Ergebnisse zu schnellen Angriffen, einem schnellen technischen und dynamischen Bewertungsdyval.

Anerkennung

Textangriff
Readme -Vorlage
Wir danken den Freiwilligen: Hanyuan Zhang, Lingrui Li, Yating Zhou, weil er das semantische Konservierende Experiment in einem schnellen Angriffs -Benchmark durchgeführt hat.

Referenz

[1] Jason Wei et al. "Die Kette des Gedankens führt zu Begründungen in Großsprachenmodellen." ARXIV Preprint Arxiv: 2201.11903 (2022).

[2] Cheng Li, et al. "EmotionPrompt: Nutzung der Psychologie für große Sprachmodelle Verbesserung durch emotionale Reize." ARXIV Preprint Arxiv: 2307.11760 (2023).

[3] Benfeng Xu, et al. "ExpertPrompting: Anweisungen großer Sprachmodelle, um ausgezeichnete Experten zu sein" Arxiv Preprint Arxiv: 2305.14688 (2023).

[4] Zhu, Kaijie et al. "PromptBench: Um die Robustheit großer Sprachmodelle auf kontroversen Aufforderungen zu bewerten." ARXIV Preprint Arxiv: 2306.04528 (2023).

[5] Zhu, Kaijie et al. "Dyval: Graph-informierte dynamische Bewertung von Großsprachmodellen." ARXIV Preprint Arxiv: 2309.17167 (2023).

[6] Liu J, Liu A, Lu X, et al. Erzeugte Kenntnisse, die für gesunden Menschenverständnisse auferlegt werden [j]. Arxiv Preprint Arxiv: 2110.08387, 2021.

[7] Zhou D., Schärli N., Hou L. et al. Die am wenigsten zu meistversteigende Erscheinung ermöglicht komplexes Denken in Großsprachenmodellen [j]. ARXIV Preprint Arxiv: 2205.10625, 2022.

[8] Felipe Maia Polo et al. "Proportional: Effiziente Multi-Prompt-Bewertung von Sprachmodellen." Arxiv Preprint Arxiv: 2405.17202.

Unter Berufung auf Eingabeaufforderung und andere Forschungsarbeiten

Bitte zitieren Sie uns, wenn Sie dieses Projekt für Ihr Projekt/Ihre Arbeit hilfreich finden:

 @article{zhu2023promptbench2,
  title={PromptBench: A Unified Library for Evaluation of Large Language Models},
  author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
  journal={arXiv preprint arXiv:2312.07910},
  year={2023}
}

@article{zhu2023promptbench,
  title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
  author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
  journal={arXiv preprint arXiv:2306.04528},
  year={2023}
}

@article{zhu2023dyval,
  title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
  author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
  journal={arXiv preprint arXiv:2309.17167},
  year={2023}
}

@article{chang2023survey,
  title={A survey on evaluation of large language models},
  author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
  journal={arXiv preprint arXiv:2307.03109},
  year={2023}
}

Beitragen

Dieses Projekt begrüßt Beiträge und Vorschläge. In den meisten Beiträgen müssen Sie einer Mitarbeiters Lizenzvereinbarung (CLA) zustimmen, in der Sie erklären, dass Sie das Recht haben und uns tatsächlich tun, um uns die Rechte zu gewähren, Ihren Beitrag zu verwenden. Weitere Informationen finden Sie unter https://cla.opensource.microsoft.com.

Wenn Sie eine Pull -Anfrage einreichen, bestimmt ein CLA -Bot automatisch, ob Sie einen CLA angeben und die PR angemessen dekorieren müssen (z. B. Statusprüfung, Kommentar). Befolgen Sie einfach die vom Bot bereitgestellten Anweisungen. Sie müssen dies nur einmal über alle Repos mit unserem CLA tun.

Dieses Projekt hat den Microsoft Open Source -Verhaltenscode übernommen. Weitere Informationen finden Sie im FAQ oder wenden Sie sich an [email protected] mit zusätzlichen Fragen oder Kommentaren.

Wenn Sie einen Vorschlag haben, der forderungsbench besser wird, geben Sie bitte das Repo und erstellen Sie eine Pull -Anfrage. Sie können auch einfach ein Problem mit dem Tag "Verbesserung" eröffnen. Vergessen Sie nicht, dem Projekt einen Stern zu geben! Danke noch einmal!

Geben Sie das Projekt auf
Erstellen Sie Ihre Filiale ( git checkout -b your_name/your_branch )
Bestimmen Sie Ihre Änderungen ( git commit -m 'Add some features' )
git push origin your_name/your_branch
Öffnen Sie eine Pull -Anfrage

Marken

Dieses Projekt kann Marken oder Logos für Projekte, Produkte oder Dienstleistungen enthalten. Die autorisierte Verwendung von Microsoft -Marken oder Logos unterliegt den Marken- und Markenrichtlinien von Microsoft und muss folgen. Die Verwendung von Microsoft -Marken oder Logos in geänderten Versionen dieses Projekts darf keine Verwirrung verursachen oder Microsoft -Sponsoring implizieren. Jede Verwendung von Marken oder Logos von Drittanbietern unterliegt den Richtlinien dieses Drittanbieters.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ AI-Quellcode
Aktualisierungszeit 2025-07-01
Größe 1.23MB
Kommt von Github

Ähnliche Anwendungen

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
promptl

2025-02-17
pywin_contextmenu

2025-08-31
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

promptbench

Nachrichten und Updates

Einführung

Was bietet promptbench derzeit?

Installation

Über `pip` einbauen

Installieren Sie über GitHub

Verwendung

Implementierte Komponenten

Datensätze

Modelle

Schnelltechnik

Gegentliche Angriffe

Protokolle und Analyse

Benchmark -Ergebnisse

Anerkennung

Referenz

Unter Berufung auf Eingabeaufforderung und andere Forschungsarbeiten

Beitragen

Marken

ML stack

awesome free chatgpt

promptl

pywin_contextmenu

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

promptl

Google Dorks

shepherd

hidusbf

promptbench

Nachrichten und Updates

Einführung

Was bietet promptbench derzeit?

Installation

Über pip einbauen

Installieren Sie über GitHub

Verwendung

Implementierte Komponenten

Datensätze

Modelle

Schnelltechnik

Gegentliche Angriffe

Protokolle und Analyse

Benchmark -Ergebnisse

Anerkennung

Referenz

Unter Berufung auf Eingabeaufforderung und andere Forschungsarbeiten

Beitragen

Marken

Über `pip` einbauen