
PROMPTBENCH :大規模な言語モデルを評価および理解するための統一ライブラリ。
論文・ドキュメント・リーダーボード・その他の論文
Promptbenchは、大規模な言語モデル(LLMS)を評価するためのPytorchベースのPythonパッケージです。研究者がLLMSで評価を実施するためのユーザーフレンドリーなAPIを提供します。技術レポートを確認してください:https://arxiv.org/abs/2312.07910。
pip経由でインストールします迅速に評価を開始したいユーザーに、PythonパッケージPROMPTBENCHを提供します。単純に実行:
pip install promptbenchPIPのインストールは、最近の更新の背後にある可能性があることに注意してください。したがって、最新の機能を使用するか、コードに基づいて開発する場合は、GitHubを介してインストールする必要があります。
まず、リポジトリをクローンします。
git clone [email protected]:microsoft/promptbench.gitそれから、
cd promptbench必要なパッケージをインストールするには、Conda環境を作成できます。
conda create --name promptbench python=3.9
conda activate promptbench次に、PIPを使用して、必要なパッケージをインストールします。
pip install -r requirements.txtこれには基本的なPythonパッケージのみがインストールされていることに注意してください。迅速な攻撃の場合、TextAttackもインストールする必要があります。
Promptbenchは使いやすく拡張できます。以下の例を使用すると、迅速な使用のためにPromptbenchに精通し、既存のデータセットとLLMを評価するか、独自のデータセットとモデルを作成できます。
最初にPromptBenchをインストールするには、インストールを参照してください。
Promptbenchがpipでインストールされている場合、単に実行できます。
import promptbench as pb gitからprosptbenchをインストールし、他のプロジェクトで使用したい場合:
import sys
# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )
# Now you can import promptbench by name
import promptbench as pb次のチュートリアルを提供します。
ProsptBenchは現在、さまざまなデータセット、モデル、プロンプトエンジニアリング方法、敵対的な攻撃などをサポートしています。さらに追加できます。
言語モデル:
マルチモーダルモデル:
迅速な攻撃、迅速なエンジニアリング、ダイナミック評価のベンチマーク結果については、ベンチマークWebサイトを参照してください。
[1] Jason Wei、et al。 「考えられたチェーンプロンプトは、大規模な言語モデルで推論を引き出します。」 arxiv preprint arxiv:2201.11903(2022)。
[2] Cheng Li、et al。 「EmotionPrompt:大規模な言語モデルの心理学を活用して、感情的な刺激を介して強化します。」 Arxiv Preprint arxiv:2307.11760(2023)。
[3] Benfeng Xu、et al。 「ExpertPrompting:大規模な言語モデルに著名な専門家に指示する」Arxiv Preprint Arxiv:2305.14688(2023)。
[4] Zhu、Kaijie、et al。 「プロンプトベンチ:敵対的なプロンプトでの大規模な言語モデルの堅牢性の評価に向けて。」 Arxiv Preprint arxiv:2306.04528(2023)。
[5] Zhu、Kaijie、et al。 「dyval:大規模な言語モデルのグラフに形成された動的評価。」 Arxiv Preprint arxiv:2309.17167(2023)。
[6] Liu J、Liu A、Lu X、et al。コモンセンスな推論を促す知識を生成しました[J]。 Arxiv Preprint arxiv:2110.08387、2021。
[7] Zhou D、SchärliN、Hou L、et al。最小のプロンプトは、大規模な言語モデル[J]で複雑な推論を可能にします。 arxiv preprint arxiv:2205.10625、2022。
[8] Felipe Maia Polo、et al。 「PROPTEVAL:言語モデルの効率的なマルチプロムプト評価。」 arxiv preprint arxiv:2405.17202。
このプロジェクトがあなたのプロジェクト/論文に役立つ場合は、私たちを引用してください:
@article{zhu2023promptbench2,
title={PromptBench: A Unified Library for Evaluation of Large Language Models},
author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
journal={arXiv preprint arXiv:2312.07910},
year={2023}
}
@article{zhu2023promptbench,
title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
journal={arXiv preprint arXiv:2306.04528},
year={2023}
}
@article{zhu2023dyval,
title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
journal={arXiv preprint arXiv:2309.17167},
year={2023}
}
@article{chang2023survey,
title={A survey on evaluation of large language models},
author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
journal={arXiv preprint arXiv:2307.03109},
year={2023}
}
このプロジェクトは、貢献と提案を歓迎します。ほとんどの貢献では、貢献者ライセンス契約(CLA)に同意する必要があります。詳細については、https://cla.opensource.microsoft.comをご覧ください。
プルリクエストを送信すると、CLAボットはCLAを提供し、PRを適切に飾る必要があるかどうかを自動的に決定します(たとえば、ステータスチェック、コメント)。ボットが提供する指示に従うだけです。 CLAを使用して、すべてのレポでこれを1回だけ行う必要があります。
このプロジェクトは、Microsoftのオープンソース行動規範を採用しています。詳細については、FAQのコードを参照するか、追加の質問やコメントについては[email protected]にお問い合わせください。
プロンプトベンチを改善する提案がある場合は、リポジトリをフォークしてプルリクエストを作成してください。また、タグ「拡張機能」で問題を開くこともできます。プロジェクトにスターを与えることを忘れないでください!再度、感謝します!
git checkout -b your_name/your_branch )git commit -m 'Add some features' )git push origin your_name/your_branch )このプロジェクトには、プロジェクト、製品、またはサービスの商標またはロゴが含まれる場合があります。 Microsoftの商標またはロゴの承認された使用は、Microsoftの商標およびブランドガイドラインに従うものであり、従わなければなりません。このプロジェクトの変更されたバージョンでのMicrosoft商標またはロゴの使用は、混乱を引き起こしたり、Microsoftのスポンサーシップを暗示したりしてはなりません。サードパーティの商標またはロゴの使用は、これらのサードパーティのポリシーの対象となります。