promptbenchダウンロード - promptbenchソースコードのダウンロード

promptbench

AI ソースコード

1.0.0

ダウンロード

PROMPTBENCH ：大規模な言語モデルを評価および理解するための統一ライブラリ。
論文・ドキュメント・リーダーボード・その他の論文

ニュースと更新
導入
インストール
使用法
データセットとモデル
ベンチマークの結果
謝辞

ニュースと更新

[19/08/2024] Dyval 2（ICML 2024）を追加します。
[19/08/2024]このリポジトリに効率的なマルチプロムプト評価方法であるPropentValを融合します。
[26/05/2024] GPT-4oのサポートを追加します。
[13/03/2024]マルチモーダルモデルとデータセットのサポートを追加します。
[05/01/2024] BigBench Hard、Drop、ARCデータセットのサポートを追加します。
[16/12/2023] Gemini、Mistral、Mixtral、Baichuan、YIモデルのサポートを追加します。
[15/12/2023]ユーザーの詳細な手順を追加して、新しいモジュール（モデル、データセットなど）を追加する例/add_new_modules.md。
[05/12/2023] Promptbench 0.0.1を公開しました。

導入

Promptbenchは、大規模な言語モデル（LLMS）を評価するためのPytorchベースのPythonパッケージです。研究者がLLMSで評価を実施するためのユーザーフレンドリーなAPIを提供します。技術レポートを確認してください：https：//arxiv.org/abs/2312.07910。

Promptbenchは現在何を提供していますか？

クイックモデルのパフォーマンス評価：モデルパフォーマンスの迅速なモデル構築、データセットの読み込み、評価を可能にするユーザーフレンドリーなインターフェイスを提供します。
プロンプトエンジニアリング：いくつかの迅速なエンジニアリング方法を実装しました。例：いくつかのショットチェーン[1]、感情プロンプト[2]、エキスパートプロンプト[3]など。
敵対的なプロンプトの評価：プロンプトベンチ統合プロンプト攻撃[4]、研究者がモデルに対するブラックボックスの敵対的なプロンプト攻撃をシミュレートし、その堅牢性を評価できるようにします（詳細を参照）。
潜在的なテストデータの汚染を緩和するための動的評価：動的評価フレームワークDyval [5]を統合しました。
効率的なマルチプロムプト評価：効率的なマルチプロムプト評価方法を統合しました[8]。この方法では、少量のデータでLLMSのパフォーマンスを使用して、IRT様モデルを構築します。このモデルは、目に見えないデータでのLLMSのパフォーマンスを予測するために使用されます。 MMLU、BBH、およびLmentryのテストでは、この方法では、推定パフォーマンスと実際のパフォーマンスの誤差を約2％に減らすために、データの5％のみをサンプリングする必要があることが示されています。

インストール

`pip`経由でインストールします

迅速に評価を開始したいユーザーに、PythonパッケージPROMPTBENCHを提供します。単純に実行：

pip install promptbench

PIPのインストールは、最近の更新の背後にある可能性があることに注意してください。したがって、最新の機能を使用するか、コードに基づいて開発する場合は、GitHubを介してインストールする必要があります。

Github経由でインストールします

まず、リポジトリをクローンします。

git clone [email protected]:microsoft/promptbench.git

それから、

 cd promptbench

必要なパッケージをインストールするには、Conda環境を作成できます。

conda create --name promptbench python=3.9
conda activate promptbench

次に、PIPを使用して、必要なパッケージをインストールします。

pip install -r requirements.txt

これには基本的なPythonパッケージのみがインストールされていることに注意してください。迅速な攻撃の場合、TextAttackもインストールする必要があります。

使用法

Promptbenchは使いやすく拡張できます。以下の例を使用すると、迅速な使用のためにPromptbenchに精通し、既存のデータセットとLLMを評価するか、独自のデータセットとモデルを作成できます。

最初にPromptBenchをインストールするには、インストールを参照してください。

Promptbenchがpipでインストールされている場合、単に実行できます。

 import promptbench as pb

gitからprosptbenchをインストールし、他のプロジェクトで使用したい場合：

 import sys

# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )

# Now you can import promptbench by name
import promptbench as pb

次のチュートリアルを提供します。

既存のベンチマークでモデルを評価する：評価パイプラインの構築については、例/basic.ipynbを参照してください。マルチモーダル評価パイプラインについては、例/multimodal.ipynbを参照してください
さまざまなプロンプトテクニックの効果をテストします。
迅速な攻撃の堅牢性を調べてください。攻撃を構築するには、examples/prompt_attack.ipynbを参照してください。
評価にはdyvalを使用してください：例/dyval.ipynbを参照して、dyvalデータセットを構築してください。
PROMPTEVALを使用した効率的なマルチプロムプト評価：例を参照してください。

実装されたコンポーネント

ProsptBenchは現在、さまざまなデータセット、モデル、プロンプトエンジニアリング方法、敵対的な攻撃などをサポートしています。さらに追加できます。

データセット

言語データセット：
- 接着剤：SST-2、COLA、QQP、MRPC、MNLI、QNLI、RTE、WNLI
- mmlu
- ビッグベンチハード（ブールロジック、有効な括弧、日付...）
- 数学
- GSM8K
- 分隊V2
- IWSLT 2017
- un multi
- CSQA（CommonsenseQA）
- 数字
- QASC
- 最後の文字連結
マルチモーダルデータセット：
- VQAV2
- nocaps
- うーん
- Mathvista
- ai2d
- Chartqa
- Scienceqa

モデル

言語モデル：

オープンソースモデル：
- Google/Flan-T5-Large
- Databricks/Dolly-V1-6B
- llama2シリーズ
- Vicuna-13b、Vicuna-13B-V1.3
- セレブラス/セレブラス-GPT-13B
- Eleutherai/gpt-neox-20b
- Google/Flan-UL2
- PHI-1.5およびPHI-2
独自モデル
- 手のひら2
- GPT-3.5
- GPT-4
- Gemini Pro

マルチモーダルモデル：

オープンソースモデル：
- blip2
- llava
- Qwen-Vl、Qwen-Vl-chat
- internlm-xcomposer2-vl
独自モデル
- GPT-4V
- Gemini Pro Vision
- QWEN-VL-MAX、QWEN-VL-PLUS

迅速なエンジニアリング

チェーンオブサボ（COT）[1]
感情的なもの[2]
専門家プロンプト[3]
ゼロショットチェーンオブサボ
生成された知識[6]
少なくともほとんど[7]

敵対的な攻撃

キャラクターレベルの攻撃
- deepwordbug
- TextBugger
単語レベルの攻撃
- TextFooler
- バータタック
文レベルの攻撃
- チェックリスト
- ストレステスト
セマンティックレベルの攻撃
- 人間が作成した攻撃

プロトコルと分析

標準評価
動的評価
意味評価
ベンチマークの結果
視覚化分析
転送可能性分析
単語頻度分析

ベンチマークの結果

迅速な攻撃、迅速なエンジニアリング、ダイナミック評価のベンチマーク結果については、ベンチマークWebサイトを参照してください。

謝辞

TextAttack
readmeテンプレート
ボランティアに感謝します：Hanyuan Zhang、Lingrui Li、Yating Zhouは、迅速な攻撃ベンチマークでセマンティック保存実験を実施してくれました。

参照

[1] Jason Wei、et al。「考えられたチェーンプロンプトは、大規模な言語モデルで推論を引き出します。」 arxiv preprint arxiv：2201.11903（2022）。

[2] Cheng Li、et al。「EmotionPrompt：大規模な言語モデルの心理学を活用して、感情的な刺激を介して強化します。」 Arxiv Preprint arxiv：2307.11760（2023）。

[3] Benfeng Xu、et al。「ExpertPrompting：大規模な言語モデルに著名な専門家に指示する」Arxiv Preprint Arxiv：2305.14688（2023）。

[4] Zhu、Kaijie、et al。「プロンプトベンチ：敵対的なプロンプトでの大規模な言語モデルの堅牢性の評価に向けて。」 Arxiv Preprint arxiv：2306.04528（2023）。

[5] Zhu、Kaijie、et al。「dyval：大規模な言語モデルのグラフに形成された動的評価。」 Arxiv Preprint arxiv：2309.17167（2023）。

[6] Liu J、Liu A、Lu X、et al。コモンセンスな推論を促す知識を生成しました[J]。 Arxiv Preprint arxiv：2110.08387、2021。

[7] Zhou D、SchärliN、Hou L、et al。最小のプロンプトは、大規模な言語モデル[J]で複雑な推論を可能にします。 arxiv preprint arxiv：2205.10625、2022。

[8] Felipe Maia Polo、et al。「PROPTEVAL：言語モデルの効率的なマルチプロムプト評価。」 arxiv preprint arxiv：2405.17202。

プロンプトベンチやその他の研究論文を引用します

このプロジェクトがあなたのプロジェクト/論文に役立つ場合は、私たちを引用してください：

 @article{zhu2023promptbench2,
  title={PromptBench: A Unified Library for Evaluation of Large Language Models},
  author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
  journal={arXiv preprint arXiv:2312.07910},
  year={2023}
}

@article{zhu2023promptbench,
  title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
  author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
  journal={arXiv preprint arXiv:2306.04528},
  year={2023}
}

@article{zhu2023dyval,
  title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
  author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
  journal={arXiv preprint arXiv:2309.17167},
  year={2023}
}

@article{chang2023survey,
  title={A survey on evaluation of large language models},
  author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
  journal={arXiv preprint arXiv:2307.03109},
  year={2023}
}

貢献

このプロジェクトは、貢献と提案を歓迎します。ほとんどの貢献では、貢献者ライセンス契約（CLA）に同意する必要があります。詳細については、https：//cla.opensource.microsoft.comをご覧ください。

プルリクエストを送信すると、CLAボットはCLAを提供し、PRを適切に飾る必要があるかどうかを自動的に決定します（たとえば、ステータスチェック、コメント）。ボットが提供する指示に従うだけです。 CLAを使用して、すべてのレポでこれを1回だけ行う必要があります。

このプロジェクトは、Microsoftのオープンソース行動規範を採用しています。詳細については、FAQのコードを参照するか、追加の質問やコメントについては[email protected]にお問い合わせください。

プロンプトベンチを改善する提案がある場合は、リポジトリをフォークしてプルリクエストを作成してください。また、タグ「拡張機能」で問題を開くこともできます。プロジェクトにスターを与えることを忘れないでください！再度、感謝します！

プロジェクトをフォークします
ブランチを作成する（ git checkout -b your_name/your_branch ）
あなたの変更をコミットします（ git commit -m 'Add some features' ）
ブランチにプッシュする（ git push origin your_name/your_branch ）
プルリクエストを開きます

商標

このプロジェクトには、プロジェクト、製品、またはサービスの商標またはロゴが含まれる場合があります。 Microsoftの商標またはロゴの承認された使用は、Microsoftの商標およびブランドガイドラインに従うものであり、従わなければなりません。このプロジェクトの変更されたバージョンでのMicrosoft商標またはロゴの使用は、混乱を引き起こしたり、Microsoftのスポンサーシップを暗示したりしてはなりません。サードパーティの商標またはロゴの使用は、これらのサードパーティのポリシーの対象となります。

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2025-07-01
サイズ 1.23MB
から Github

promptbench

ニュースと更新

導入

Promptbenchは現在何を提供していますか？

インストール

`pip`経由でインストールします

Github経由でインストールします

使用法

実装されたコンポーネント

データセット

モデル

迅速なエンジニアリング

敵対的な攻撃

プロトコルと分析

ベンチマークの結果

謝辞

参照

プロンプトベンチやその他の研究論文を引用します

貢献

商標

ML stack

awesome free chatgpt

promptl

pywin_contextmenu

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

promptl

Google Dorks

shepherd

hidusbf

promptbench

ニュースと更新

導入

Promptbenchは現在何を提供していますか？

インストール

pip経由でインストールします

Github経由でインストールします

使用法

実装されたコンポーネント

データセット

モデル

迅速なエンジニアリング

敵対的な攻撃

プロトコルと分析

ベンチマークの結果

謝辞

参照

プロンプトベンチやその他の研究論文を引用します

貢献

商標

`pip`経由でインストールします