
提示Bench :一個用於評估和理解大語言模型的統一庫。
紙·文檔·排行榜·更多論文
PrestBench是一個基於Pytorch的Python軟件包,用於評估大語言模型(LLMS)。它為研究人員提供了用戶友好的API,以便對LLM進行評估。檢查技術報告:https://arxiv.org/abs/2312.07910。
pip安裝我們為想要快速開始評估的用戶提供Python軟件包提示。只需運行:
pip install promptbench請注意,PIP安裝可能是最近更新的背後。因此,如果您想使用最新功能或根據我們的代碼開發,則應通過GitHub安裝。
首先,克隆回購:
git clone [email protected]:microsoft/promptbench.git然後,
cd promptbench要安裝所需的軟件包,您可以創建一個Conda環境:
conda create --name promptbench python=3.9
conda activate promptbench然後使用PIP安裝所需的軟件包:
pip install -r requirements.txt請注意,這僅安裝了基本的Python軟件包。對於及時攻擊,您還需要安裝TextAttack。
及時替補板易於使用和擴展。瀏覽以下示例將有助於您熟悉快速使用,評估現有數據集和LLM或創建自己的數據集和模型。
請參閱安裝以首先安裝提示板。
如果通過pip安裝提示板,您可以簡單地做:
import promptbench as pb如果您從git中安裝了ProfteBench,並希望在其他項目中使用它:
import sys
# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )
# Now you can import promptbench by name
import promptbench as pb我們提供:
PINSTBENCE當前支持不同的數據集,模型,及時工程方法,對抗性攻擊等。歡迎您添加更多。
語言模型:
多模式模型:
請參閱我們的基準網站,以獲取有關及時攻擊,及時工程和動態評估Dyval的基準結果。
[1] Jason Wei等。 “經過思考的鏈條促使人們在大語言模型中引發推理。” ARXIV預印型ARXIV:2201.11903(2022)。
[2] Cheng Li等。 “情感:通過情緒刺激來利用心理學來增強大語模型。” ARXIV預印型ARXIV:2307.11760(2023)。
[3] Benfeng Xu等。 “專家宣傳:指導大型語言模型為傑出的專家” Arxiv Preprint Arxiv:2305.14688(2023)。
[4] Zhu,Kaijie等。 “提示貝克:旨在評估在對抗性提示上大型語言模型的魯棒性。” ARXIV預印型ARXIV:2306.04528(2023)。
[5] Zhu,Kaijie等。 “ Dyval:大型語言模型的圖形信息評估。” ARXIV預印型ARXIV:2309.17167(2023)。
[6] Liu J,Liu A,Lu X等。產生的知識促使常識性推理[J]。 Arxiv預印型ARXIV:2110.08387,2021。
[7] Zhou D,SchärliN,Hou L等。最小一是提示可以在大語言模型中實現複雜的推理[J]。 Arxiv預印型ARXIV:2205.10625,2022。
[8] Felipe Maia Polo等。 “及時:語言模型的有效多項目評估。” ARXIV預印型ARXIV:2405.17202。
如果您發現此項目對您的項目/論文有幫助,請引用我們:
@article{zhu2023promptbench2,
title={PromptBench: A Unified Library for Evaluation of Large Language Models},
author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
journal={arXiv preprint arXiv:2312.07910},
year={2023}
}
@article{zhu2023promptbench,
title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
journal={arXiv preprint arXiv:2306.04528},
year={2023}
}
@article{zhu2023dyval,
title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
journal={arXiv preprint arXiv:2309.17167},
year={2023}
}
@article{chang2023survey,
title={A survey on evaluation of large language models},
author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
journal={arXiv preprint arXiv:2307.03109},
year={2023}
}
該項目歡迎貢獻和建議。大多數捐款要求您同意撰寫貢獻者許可協議(CLA),宣布您有權並實際上授予我們使用您的貢獻的權利。有關詳細信息,請訪問https://cla.opensource.microsoft.com。
當您提交拉動請求時,CLA機器人將自動確定您是否需要提供CLA並適當裝飾PR(例如狀態檢查,評論)。只需按照機器人提供的說明即可。您只需要使用我們的CLA在所有存儲庫中進行一次。
該項目採用了Microsoft開源的行為代碼。有關更多信息,請參見《行為守則常見問題守則》或與其他問題或評論聯繫[email protected]。
如果您有一個可以使提示板更好的建議,請分配存儲庫並創建拉動請求。您也可以簡單地使用標籤“增強”打開問題。別忘了給項目一個明星!再次感謝!
git checkout -b your_name/your_branch )git commit -m 'Add some features' )git push origin your_name/your_branch分支該項目可能包含用於項目,產品或服務的商標或徽標。 Microsoft商標或徽標的授權使用受到了Microsoft的商標和品牌準則的約束。在此項目的修改版本中使用Microsoft商標或徽標不得引起混亂或暗示Microsoft贊助。任何使用第三方商標或徽標都遵守這些第三方政策。