promptbench下载 - promptbench源代码下载

promptbench

Ai源码

1.0.0

下载

提示Bench ：一个用于评估和理解大语言模型的统一库。
纸·文档·排行榜·更多论文

新闻和更新
介绍
安装
用法
数据集和模型
基准结果
致谢

新闻和更新

[19/08/2024]添加Dyval 2（ICML 2024）。
[19/08/2024]合并迅速的多个多项目评估方法，将其纳入此存储库中。
[26/05/2024]增加对GPT-4O的支持。
[13/03/2024]增加对多模式模型和数据集的支持。
[05/01/2024]添加对BigBench的支持，DROP，ARC数据集。
[16/12/2023]增加了对双子座，Mistral，Mixtral，Baichuan，YI模型的支持。
[15/12/2023]为用户添加详细说明，以添加新模块（型号，数据集等）示例/add_new_modules.md。
[05/12/2023]发表了提示Bench 0.0.1。

介绍

PrestBench是一个基于Pytorch的Python软件包，用于评估大语言模型（LLMS）。它为研究人员提供了用户友好的API，以便对LLM进行评估。检查技术报告：https：//arxiv.org/abs/2312.07910。

当前提示Bench提供什么？

快速模型性能评估：我们提供了一个用户友好的接口，该界面允许快速构建模型，数据集加载和模型性能评估。
及时工程：我们实施了几种及时的工程方法。例如：几乎没有想法的链条[1]，情感提示[2]，专家提示[3]等。
评估对抗性提示：提示Bench集成了及时攻击[4]，使研究人员能够模拟对模型的Black-Box对抗及时攻击并评估其稳健性（请参见此处的详细信息）。
动态评估以减轻潜在的测试数据污染：我们集成了动态评估框架Dyval [5]，该框架[5]，该框架生成具有控制复杂性的评估样本。
有效的多项目评估：我们整合了有效的多点评估方法及时[8]。该方法使用LLM在少量数据上的性能来构建类似IRT的模型。然后，该模型用于预测LLM在看不见的数据上的性能。对MMLU，BBH和LMENTRY的测试表明，此方法仅需要对5％的数据进行采样，以将估计和实际性能之间的误差降低至2％左右。

安装

通过`pip`安装

我们为想要快速开始评估的用户提供Python软件包提示。只需运行：

pip install promptbench

请注意，PIP安装可能是最近更新的背后。因此，如果您想使用最新功能或根据我们的代码开发，则应通过GitHub安装。

通过github安装

首先，克隆回购：

git clone [email protected]:microsoft/promptbench.git

然后，

 cd promptbench

要安装所需的软件包，您可以创建一个Conda环境：

conda create --name promptbench python=3.9
conda activate promptbench

然后使用PIP安装所需的软件包：

pip install -r requirements.txt

请注意，这仅安装了基本的Python软件包。对于及时攻击，您还需要安装TextAttack。

用法

及时替补板易于使用和扩展。浏览以下示例将有助于您熟悉快速使用，评估现有数据集和LLM或创建自己的数据集和模型。

请参阅安装以首先安装提示板。

如果通过pip安装提示板，您可以简单地做：

 import promptbench as pb

如果您从git中安装了ProfteBench，并希望在其他项目中使用它：

 import sys

# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )

# Now you can import promptbench by name
import promptbench as pb

我们提供：

评估现有基准的模型：请参阅示例/basic.ipynb构建评估管道。有关多模式评估管道，请参阅示例/多模式。IPYNB
测试不同提示技术的影响：
检查鲁棒性是否及时攻击，请参阅示例/stript_attack.ipynb来构建攻击。
使用Dyval进行评估：请参阅示例/Dyval.ipynb构建Dyval数据集。
使用迅速的评估有效的多项目评估：请参阅示例/效率_multi_prompt_eval.ipynb

实施的组件

PINSTBENCE当前支持不同的数据集，模型，及时工程方法，对抗性攻击等。欢迎您添加更多。

数据集

语言数据集：
- 胶：SST-2，可乐，QQP，MRPC，MNLI，QNLI，RTE，WNLI
- mmlu
- 大台式硬台（bool逻辑，有效的括号，日期...）
- 数学
- GSM8K
- 小队V2
- IWSLT 2017
- Un Multi
- CSQA（Commonsense QA）
- numersense
- QASC
- 最后一个字母连接
多模式数据集：
- VQAV2
- nocaps
- 嗯
- Mathvista
- AI2D
- Chartqa
- Scienceqa

型号

语言模型：

开源模型：
- Google/flan-t5大
- Databricks/Dolly-V1-6B
- Llama2系列
- Vicuna-13b，Vicuna-13b-v1.3
- 脑/小脑-GPT-13B
- eleutherai/gpt-neox-20b
- Google/Flan-UL2
- PHI-1.5和PHI-2
专有模型
- 棕榈2
- GPT-3.5
- GPT-4
- 双子座专业人士

多模式模型：

开源模型：
- blip2
- llava
- QWEN-VL，QWEN-VL-CHAT
- internlm-xcomposer2-vl
专有模型
- GPT-4V
- 双子座职业视野
- QWEN-VL-MAX，QWEN-VL-plus

及时的工程

经过思考链（COT）[1]
情绪支持[2]
提示[3]的专家
零射击链
产生的知识[6]
至少大多数[7]

对抗性攻击

角色级攻击
- DeepWordbug
- Textbugger
单词级攻击
- TextFooler
- Bertattack
句子级攻击
- 清单
- 应力测试
语义级攻击
- 人工攻击

协议和分析

标准评估
动态评估
语义评估
基准结果
可视化分析
可传递性分析
单词频率分析

基准结果

请参阅我们的基准网站，以获取有关及时攻击，及时工程和动态评估Dyval的基准结果。

致谢

TextAttack
读数模板
我们感谢志愿者：Hanyuan Zhang，Lingrui Li，Yating Yating Zhou在迅速攻击基准中进行语义保存实验。

参考

[1] Jason Wei等。 “经过思考的链条促使人们在大语言模型中引发推理。” ARXIV预印型ARXIV：2201.11903（2022）。

[2] Cheng Li等。 “情感：通过情绪刺激来利用心理学来增强大语模型。” ARXIV预印型ARXIV：2307.11760（2023）。

[3] Benfeng Xu等。 “专家宣传：指导大型语言模型为杰出的专家” Arxiv Preprint Arxiv：2305.14688（2023）。

[4] Zhu，Kaijie等。 “提示贝克：旨在评估在对抗性提示上大型语言模型的鲁棒性。” ARXIV预印型ARXIV：2306.04528（2023）。

[5] Zhu，Kaijie等。 “ Dyval：大型语言模型的图形信息评估。” ARXIV预印型ARXIV：2309.17167（2023）。

[6] Liu J，Liu A，Lu X等。产生的知识促使常识性推理[J]。 Arxiv预印型ARXIV：2110.08387，2021。

[7] Zhou D，SchärliN，Hou L等。最小一是提示可以在大语言模型中实现复杂的推理[J]。 Arxiv预印型ARXIV：2205.10625，2022。

[8] Felipe Maia Polo等。 “及时：语言模型的有效多项目评估。” ARXIV预印型ARXIV：2405.17202。

引用促使培根和其他研究论文

如果您发现此项目对您的项目/论文有帮助，请引用我们：

 @article{zhu2023promptbench2,
  title={PromptBench: A Unified Library for Evaluation of Large Language Models},
  author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
  journal={arXiv preprint arXiv:2312.07910},
  year={2023}
}

@article{zhu2023promptbench,
  title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
  author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
  journal={arXiv preprint arXiv:2306.04528},
  year={2023}
}

@article{zhu2023dyval,
  title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
  author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
  journal={arXiv preprint arXiv:2309.17167},
  year={2023}
}

@article{chang2023survey,
  title={A survey on evaluation of large language models},
  author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
  journal={arXiv preprint arXiv:2307.03109},
  year={2023}
}

贡献

该项目欢迎贡献和建议。大多数捐款要求您同意撰写贡献者许可协议（CLA），宣布您有权并实际上授予我们使用您的贡献的权利。有关详细信息，请访问https://cla.opensource.microsoft.com。

当您提交拉动请求时，CLA机器人将自动确定您是否需要提供CLA并适当装饰PR（例如状态检查，评论）。只需按照机器人提供的说明即可。您只需要使用我们的CLA在所有存储库中进行一次。

该项目采用了Microsoft开源的行为代码。有关更多信息，请参见《行为守则常见问题守则》或与其他问题或评论联系[email protected]。

如果您有一个可以使提示板更好的建议，请分配存储库并创建拉动请求。您也可以简单地使用标签“增强”打开问题。别忘了给项目一个明星！再次感谢！

分叉项目
创建您的分支（ git checkout -b your_name/your_branch ）
提交您的更改（ git commit -m 'Add some features' ）
推git push origin your_name/your_branch分支
打开拉请请求

商标

该项目可能包含用于项目，产品或服务的商标或徽标。 Microsoft商标或徽标的授权使用受到了Microsoft的商标和品牌准则的约束。在此项目的修改版本中使用Microsoft商标或徽标不得引起混乱或暗示Microsoft赞助。任何使用第三方商标或徽标都遵守这些第三方政策。

展开

附加信息

版本 1.0.0
类型 Ai源码
更新时间 2025-07-01
大小 1.23MB
来自于 Github

promptbench

新闻和更新

介绍

当前提示Bench提供什么？

安装

通过`pip`安装

通过github安装

用法

实施的组件

数据集

型号

及时的工程

对抗性攻击

协议和分析

基准结果

致谢

参考

引用促使培根和其他研究论文

贡献

商标

ML stack

awesome free chatgpt

promptl

pywin_contextmenu

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

promptl

Google Dorks

shepherd

hidusbf

promptbench

新闻和更新

介绍

当前提示Bench提供什么？

安装

通过pip安装

通过github安装

用法

实施的组件

数据集

型号

及时的工程

对抗性攻击

协议和分析

基准结果

致谢

参考

引用促使培根和其他研究论文

贡献

商标

通过`pip`安装