
提示Bench :一个用于评估和理解大语言模型的统一库。
纸·文档·排行榜·更多论文
PrestBench是一个基于Pytorch的Python软件包,用于评估大语言模型(LLMS)。它为研究人员提供了用户友好的API,以便对LLM进行评估。检查技术报告:https://arxiv.org/abs/2312.07910。
pip安装我们为想要快速开始评估的用户提供Python软件包提示。只需运行:
pip install promptbench请注意,PIP安装可能是最近更新的背后。因此,如果您想使用最新功能或根据我们的代码开发,则应通过GitHub安装。
首先,克隆回购:
git clone [email protected]:microsoft/promptbench.git然后,
cd promptbench要安装所需的软件包,您可以创建一个Conda环境:
conda create --name promptbench python=3.9
conda activate promptbench然后使用PIP安装所需的软件包:
pip install -r requirements.txt请注意,这仅安装了基本的Python软件包。对于及时攻击,您还需要安装TextAttack。
及时替补板易于使用和扩展。浏览以下示例将有助于您熟悉快速使用,评估现有数据集和LLM或创建自己的数据集和模型。
请参阅安装以首先安装提示板。
如果通过pip安装提示板,您可以简单地做:
import promptbench as pb如果您从git中安装了ProfteBench,并希望在其他项目中使用它:
import sys
# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )
# Now you can import promptbench by name
import promptbench as pb我们提供:
PINSTBENCE当前支持不同的数据集,模型,及时工程方法,对抗性攻击等。欢迎您添加更多。
语言模型:
多模式模型:
请参阅我们的基准网站,以获取有关及时攻击,及时工程和动态评估Dyval的基准结果。
[1] Jason Wei等。 “经过思考的链条促使人们在大语言模型中引发推理。” ARXIV预印型ARXIV:2201.11903(2022)。
[2] Cheng Li等。 “情感:通过情绪刺激来利用心理学来增强大语模型。” ARXIV预印型ARXIV:2307.11760(2023)。
[3] Benfeng Xu等。 “专家宣传:指导大型语言模型为杰出的专家” Arxiv Preprint Arxiv:2305.14688(2023)。
[4] Zhu,Kaijie等。 “提示贝克:旨在评估在对抗性提示上大型语言模型的鲁棒性。” ARXIV预印型ARXIV:2306.04528(2023)。
[5] Zhu,Kaijie等。 “ Dyval:大型语言模型的图形信息评估。” ARXIV预印型ARXIV:2309.17167(2023)。
[6] Liu J,Liu A,Lu X等。产生的知识促使常识性推理[J]。 Arxiv预印型ARXIV:2110.08387,2021。
[7] Zhou D,SchärliN,Hou L等。最小一是提示可以在大语言模型中实现复杂的推理[J]。 Arxiv预印型ARXIV:2205.10625,2022。
[8] Felipe Maia Polo等。 “及时:语言模型的有效多项目评估。” ARXIV预印型ARXIV:2405.17202。
如果您发现此项目对您的项目/论文有帮助,请引用我们:
@article{zhu2023promptbench2,
title={PromptBench: A Unified Library for Evaluation of Large Language Models},
author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
journal={arXiv preprint arXiv:2312.07910},
year={2023}
}
@article{zhu2023promptbench,
title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
journal={arXiv preprint arXiv:2306.04528},
year={2023}
}
@article{zhu2023dyval,
title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
journal={arXiv preprint arXiv:2309.17167},
year={2023}
}
@article{chang2023survey,
title={A survey on evaluation of large language models},
author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
journal={arXiv preprint arXiv:2307.03109},
year={2023}
}
该项目欢迎贡献和建议。大多数捐款要求您同意撰写贡献者许可协议(CLA),宣布您有权并实际上授予我们使用您的贡献的权利。有关详细信息,请访问https://cla.opensource.microsoft.com。
当您提交拉动请求时,CLA机器人将自动确定您是否需要提供CLA并适当装饰PR(例如状态检查,评论)。只需按照机器人提供的说明即可。您只需要使用我们的CLA在所有存储库中进行一次。
该项目采用了Microsoft开源的行为代码。有关更多信息,请参见《行为守则常见问题守则》或与其他问题或评论联系[email protected]。
如果您有一个可以使提示板更好的建议,请分配存储库并创建拉动请求。您也可以简单地使用标签“增强”打开问题。别忘了给项目一个明星!再次感谢!
git checkout -b your_name/your_branch )git commit -m 'Add some features' )git push origin your_name/your_branch分支该项目可能包含用于项目,产品或服务的商标或徽标。 Microsoft商标或徽标的授权使用受到了Microsoft的商标和品牌准则的约束。在此项目的修改版本中使用Microsoft商标或徽标不得引起混乱或暗示Microsoft赞助。任何使用第三方商标或徽标都遵守这些第三方政策。