
프롬프트 벤치 : 대형 언어 모델을 평가하고 이해하기위한 통합 라이브러리.
종이 · 문서화 · 리더 보드 · 더 많은 논문
PrfustBench 는 대형 언어 모델 (LLM) 평가를위한 Pytorch 기반 Python 패키지입니다. 연구원이 LLM에 대한 평가를 수행 할 수있는 사용자 친화적 인 API를 제공합니다. 기술 보고서를 확인하십시오 : https://arxiv.org/abs/2312.07910.
pip 를 통해 설치하십시오우리는 신속하게 평가를 시작하려는 사용자에게 Python 패키지 프롬프트 벤치를 제공합니다. 단순히 실행 :
pip install promptbenchPIP 설치는 최근 업데이트 뒤에있을 수 있습니다. 따라서 최신 기능을 사용하거나 코드를 기반으로 개발하려면 GitHub를 통해 설치해야합니다.
먼저, Repo를 복제하십시오.
git clone [email protected]:microsoft/promptbench.git그 다음에,
cd promptbench필요한 패키지를 설치하려면 콘다 환경을 만들 수 있습니다.
conda create --name promptbench python=3.9
conda activate promptbench그런 다음 PIP를 사용하여 필요한 패키지를 설치합니다.
pip install -r requirements.txt이것은 기본 Python 패키지 만 설치했습니다. 프롬프트 공격의 경우 TextAtack을 설치해야합니다.
프롬프트 벤치는 사용하기 쉽고 확장합니다. 아래 예제를 살펴보면 빠른 사용을 위해 PrfustBench에 익숙해 지거나 기존 데이터 세트 및 LLM을 평가하거나 고유 한 데이터 세트 및 모델을 만들 수 있습니다.
프롬프트 벤치를 먼저 설치하려면 설치를 참조하십시오.
PRESMPBENCH가 pip 를 통해 설치되면 간단히 할 수 있습니다.
import promptbench as pb git 에서 PrfustBench를 설치하고 다른 프로젝트에서 사용하려는 경우 :
import sys
# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )
# Now you can import promptbench by name
import promptbench as pb우리는 다음에 대한 튜토리얼을 제공합니다.
PrfustBench는 현재 다양한 데이터 세트, 모델, 신속한 엔지니어링 방법, 적대적 공격 등을 지원합니다. 더 추가 할 수 있습니다.
언어 모델 :
멀티 모달 모델 :
신속한 공격, 신속한 엔지니어링 및 동적 평가 Dyval에 대한 벤치 마크 결과는 벤치 마크 웹 사이트를 참조하십시오.
[1] Jason Wei, et al. "고려 된 사슬의 프롬프트는 큰 언어 모델에서 추론을 유도합니다." Arxiv preprint arxiv : 2201.11903 (2022).
[2] Cheng Li, et al. "감정 홍보 : 감정 자극을 통한 대형 언어 모델 향상을위한 심리학 활용." Arxiv preprint arxiv : 2307.11760 (2023).
[3] Benfeng Xu, et al. "ExpertPrompting : 대형 언어 모델을 구별되는 전문가로 지시"ARXIV PREPRINT ARXIV : 2305.14688 (2023).
[4] Zhu, Kaijie, et al. "프롬프트 벤치 : 대적 프롬프트에서 큰 언어 모델의 견고성을 평가하기 위해." Arxiv preprint arxiv : 2306.04528 (2023).
[5] Zhu, Kaijie, et al. "Dyval : 대형 언어 모델의 그래프 정보 동적 평가." Arxiv preprint arxiv : 2309.17167 (2023).
[6] Liu J, Liu A, Lu X 등 상식 추론을위한 제기 된 지식 [J]. Arxiv preprint arxiv : 2110.08387, 2021.
[7] Zhou D, Schärli N, Hou L 등. 가장 큰 프롬프트는 대형 언어 모델에서 복잡한 추론을 가능하게합니다 [J]. Arxiv preprint arxiv : 2205.10625, 2022.
[8] Felipe Maia Polo, et al. "Prompteval : 언어 모델의 효율적인 멀티 프롬프트 평가." Arxiv preprint arxiv : 2405.17202.
이 프로젝트가 프로젝트/논문에 도움이되면 우리를 인용하십시오.
@article{zhu2023promptbench2,
title={PromptBench: A Unified Library for Evaluation of Large Language Models},
author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
journal={arXiv preprint arXiv:2312.07910},
year={2023}
}
@article{zhu2023promptbench,
title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
journal={arXiv preprint arXiv:2306.04528},
year={2023}
}
@article{zhu2023dyval,
title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
journal={arXiv preprint arXiv:2309.17167},
year={2023}
}
@article{chang2023survey,
title={A survey on evaluation of large language models},
author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
journal={arXiv preprint arXiv:2307.03109},
year={2023}
}
이 프로젝트는 기여와 제안을 환영합니다. 대부분의 기부금은 귀하가 귀하가 귀하의 기부금을 사용할 권리를 부여 할 권리가 있다고 선언하는 기고자 라이센스 계약 (CLA)에 동의해야합니다. 자세한 내용은 https://cla.opensource.microsoft.com을 방문하십시오.
풀 요청을 제출할 때 CLA 봇은 CLA를 제공하고 PR을 적절하게 장식 해야하는지 자동으로 결정합니다 (예 : 상태 점검, 댓글). 봇이 제공 한 지침을 따르십시오. CLA를 사용하여 모든 저장소에서 한 번만이 작업을 수행하면됩니다.
이 프로젝트는 Microsoft 오픈 소스 행동 강령을 채택했습니다. 자세한 내용은 추가 질문이나 의견이 있으면 행동 강령 FAQ 또는 [email protected]에 문의하십시오.
프롬프트 벤치가 더 좋게 만드는 제안이 있다면, repo를 포크하고 풀 요청을 만듭니다. "Enhancement"태그에 문제를 열면 간단히 문제를 열 수도 있습니다. 프로젝트에 별을주는 것을 잊지 마십시오! 다시 한 번 감사드립니다!
git checkout -b your_name/your_branch )git commit -m 'Add some features' )git push origin your_name/your_branch )이 프로젝트에는 프로젝트, 제품 또는 서비스에 대한 상표 또는 로고가 포함될 수 있습니다. Microsoft 상표 또는 로고의 승인 된 사용에는 Microsoft의 상표 및 브랜드 지침이 적용되며 따라야합니다. 이 프로젝트의 수정 된 버전에서 Microsoft 상표 또는 로고를 사용한다고해서 혼란을 일으키거나 Microsoft 후원을 암시해서는 안됩니다. 타사 상표 또는 로고를 사용하면 타사 정책이 적용됩니다.