promptbench 다운로드 - promptbench 소스 코드 다운로드

promptbench

AI 소스 코드

1.0.0

다운로드

프롬프트 벤치 : 대형 언어 모델을 평가하고 이해하기위한 통합 라이브러리.
종이 · 문서화 · 리더 보드 · 더 많은 논문

뉴스 및 업데이트
소개
설치
용법
데이터 세트 및 모델
벤치 마크 결과
감사의 말

뉴스 및 업데이트

[19/08/2024] Dyval 2 (ICML 2024)를 추가하십시오.
[19/08/2024] 효율적인 다중 프롬프트 평가 방법 인 Prompteval 을이 저장소로 병합합니다.
[26/05/2024] GPT-4O에 대한 지원을 추가하십시오.
[13/03/2024] 멀티 모달 모델 및 데이터 세트에 대한 지원을 추가합니다.
[05/01/2024] Bigbench 하드, 드롭, 아크 데이터 세트에 대한 지원을 추가하십시오.
[16/12/2023] Gemini, Mistral, Mixtral, Baichuan, Yi 모델에 대한 지원을 추가합니다.
[15/12/2023] 사용자가 새 모듈 (모델, 데이터 세트 등)을 추가 할 수있는 자세한 지침을 추가하십시오. 예제/add_new_modules.md.
[05/12/2023] 출판 된 프롬프트 벤치 0.0.1.

소개

PrfustBench 는 대형 언어 모델 (LLM) 평가를위한 Pytorch 기반 Python 패키지입니다. 연구원이 LLM에 대한 평가를 수행 할 수있는 사용자 친화적 인 API를 제공합니다. 기술 보고서를 확인하십시오 : https://arxiv.org/abs/2312.07910.

프롬프트 벤치는 현재 무엇을 제공하고 있습니까?

빠른 모델 성능 평가 : 빠른 모델 구축, 데이터 세트로드 및 모델 성능 평가를 제공하는 사용자 친화적 인 인터페이스를 제공합니다.
신속한 엔지니어링 : 몇 가지 신속한 엔지니어링 방법을 구현했습니다. 예를 들어 : 소수의 샷 사슬 [1], 감정 프롬프트 [2], 전문가 프롬프트 [3] 등.
적대적 프롬프트 평가 : Promptbench 통합 프롬프트 공격 [4]을 통해 연구원들은 모델에 대한 블랙 박스 대적 프롬프트 공격을 시뮬레이션하고 견고성을 평가할 수 있습니다 (여기에서는 세부 사항 참조).
잠재적 테스트 데이터 오염을 완화하기위한 동적 평가 : 동적 평가 프레임 워크 Dyval [5]을 통합하여 복잡성을 통제하는 평가 샘플을 즉시 생성합니다.
효율적인 멀티 프롬프트 평가 : 우리는 효율적인 다중 프롬프트 평가 방법 Prompteval을 통합했습니다 [8]. 이 방법은 소량의 데이터에서 LLM의 성능을 사용하여 IRT와 같은 모델을 구축합니다. 그런 다음이 모델은 보이지 않는 데이터에서 LLM의 성능을 예측하는 데 사용됩니다. MMLU, BBH 및 Lmentry에 대한 테스트는이 방법이 추정 된 성능과 실제 성능 사이의 오차를 약 2%로 줄이기 위해 데이터의 5% 만 샘플링해야 함을 보여줍니다.

설치

`pip` 를 통해 설치하십시오

우리는 신속하게 평가를 시작하려는 사용자에게 Python 패키지 프롬프트 벤치를 제공합니다. 단순히 실행 :

pip install promptbench

PIP 설치는 최근 업데이트 뒤에있을 수 있습니다. 따라서 최신 기능을 사용하거나 코드를 기반으로 개발하려면 GitHub를 통해 설치해야합니다.

Github를 통해 설치하십시오

먼저, Repo를 복제하십시오.

git clone [email protected]:microsoft/promptbench.git

그 다음에,

 cd promptbench

필요한 패키지를 설치하려면 콘다 환경을 만들 수 있습니다.

conda create --name promptbench python=3.9
conda activate promptbench

그런 다음 PIP를 사용하여 필요한 패키지를 설치합니다.

pip install -r requirements.txt

이것은 기본 Python 패키지 만 설치했습니다. 프롬프트 공격의 경우 TextAtack을 설치해야합니다.

용법

프롬프트 벤치는 사용하기 쉽고 확장합니다. 아래 예제를 살펴보면 빠른 사용을 위해 PrfustBench에 익숙해 지거나 기존 데이터 세트 및 LLM을 평가하거나 고유 한 데이터 세트 및 모델을 만들 수 있습니다.

프롬프트 벤치를 먼저 설치하려면 설치를 참조하십시오.

PRESMPBENCH가 pip 를 통해 설치되면 간단히 할 수 있습니다.

 import promptbench as pb

git 에서 PrfustBench를 설치하고 다른 프로젝트에서 사용하려는 경우 :

 import sys

# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )

# Now you can import promptbench by name
import promptbench as pb

우리는 다음에 대한 튜토리얼을 제공합니다.

기존 벤치 마크에서 모델 평가 : 평가 파이프 라인 구성을 위해 예제/BASIC.IPYNB를 참조하십시오. 멀티 모달 평가 파이프 라인은 예제/multimodal.ipynb를 참조하십시오
다양한 프롬프트 기술의 효과를 테스트하십시오.
프롬프트 공격에 대한 견고성을 검사하십시오 . 공격을 구성하려면 예제/prompt_attack.ipynb를 참조하십시오.
평가를 위해 dyval을 사용하십시오 : dyval 데이터 세트를 구성하려면 예제/dyval.ipynb를 참조하십시오.
Prompteval을 사용한 효율적인 멀티 프롬프 평가 : 예제/효율적인 _multi_prompt_eval.ipynb를 참조하십시오.

구현 된 구성 요소

PrfustBench는 현재 다양한 데이터 세트, 모델, 신속한 엔지니어링 방법, 적대적 공격 등을 지원합니다. 더 추가 할 수 있습니다.

데이터 세트

언어 데이터 세트 :
- 접착제 : SST-2, Cola, QQP, MRPC, MNLI, QNLI, RTE, WNLI
- MMLU
- 큰 벤치 하드 (bool logic, 유효한 괄호, 날짜 ...)
- 수학
- GSM8K
- 분대 V2
- IWSLT 2017
- 유엔 멀티
- CSQA (Commonsense QA)
- 숫자
- qasc
- 마지막 편지를 연결합니다
멀티 모달 데이터 세트 :
- vqav2
- nocaps
- 음
- Mathvista
- AI2D
- ChartQa
- Scienceqa

모델

언어 모델 :

오픈 소스 모델 :
- Google/FLAN-T5-LARGE
- Databricks/Dolly-V1-6B
- llama2 시리즈
- Vicuna-13B, Vicuna-13B-V1.3
- 뇌/뇌 GPT-13B
- eleutherai/gpt-neox-20b
- Google/Flan-ul2
- PHI-1.5 및 PHI-2
독점 모델
- 팜 2
- GPT-3.5
- GPT-4
- Gemini Pro

멀티 모달 모델 :

오픈 소스 모델 :
- blip2
- llava
- Qwen-VL, Qwen-VL-Chat
- internlm-xcomposer2-vl
독점 모델
- GPT-4V
- Gemini Pro Vision
- Qwen-VL-Max, Qwen-VL-Plus

프롬프트 엔지니어링

생각의 사슬 (COT) [1]
eTiversprompt [2]
전문가 프롬프트 [3]
제로 샷 사슬의 생각
생성 된 지식 [6]
최소한 대부분 [7]

대적 공격

캐릭터 수준의 공격
- Deepwordbug
- TextBugger
단어 수준의 공격
- TextFooler
- 버트 팩
문장 수준의 공격
- 점검표
- 스트레스 테스트
시맨틱 수준의 공격
- 인간이 만든 공격

프로토콜 및 분석

표준 평가
동적 평가
시맨틱 평가
벤치 마크 결과
시각화 분석
전달성 분석
단어 주파수 분석

벤치 마크 결과

신속한 공격, 신속한 엔지니어링 및 동적 평가 Dyval에 대한 벤치 마크 결과는 벤치 마크 웹 사이트를 참조하십시오.

감사의 말

TextATCACK
readme 템플릿
자원 봉사자들에게 감사드립니다 : Hanyuan Zhang, Lingrui Li, Prompt Attack 벤치 마크에서 시맨틱 보존 실험을 수행 한 Yating Zhou.

참조

[1] Jason Wei, et al. "고려 된 사슬의 프롬프트는 큰 언어 모델에서 추론을 유도합니다." Arxiv preprint arxiv : 2201.11903 (2022).

[2] Cheng Li, et al. "감정 홍보 : 감정 자극을 통한 대형 언어 모델 향상을위한 심리학 활용." Arxiv preprint arxiv : 2307.11760 (2023).

[3] Benfeng Xu, et al. "ExpertPrompting : 대형 언어 모델을 구별되는 전문가로 지시"ARXIV PREPRINT ARXIV : 2305.14688 (2023).

[4] Zhu, Kaijie, et al. "프롬프트 벤치 : 대적 프롬프트에서 큰 언어 모델의 견고성을 평가하기 위해." Arxiv preprint arxiv : 2306.04528 (2023).

[5] Zhu, Kaijie, et al. "Dyval : 대형 언어 모델의 그래프 정보 동적 평가." Arxiv preprint arxiv : 2309.17167 (2023).

[6] Liu J, Liu A, Lu X 등 상식 추론을위한 제기 된 지식 [J]. Arxiv preprint arxiv : 2110.08387, 2021.

[7] Zhou D, Schärli N, Hou L 등. 가장 큰 프롬프트는 대형 언어 모델에서 복잡한 추론을 가능하게합니다 [J]. Arxiv preprint arxiv : 2205.10625, 2022.

[8] Felipe Maia Polo, et al. "Prompteval : 언어 모델의 효율적인 멀티 프롬프트 평가." Arxiv preprint arxiv : 2405.17202.

프롬프트 벤치 및 기타 연구 논문을 인용합니다

이 프로젝트가 프로젝트/논문에 도움이되면 우리를 인용하십시오.

 @article{zhu2023promptbench2,
  title={PromptBench: A Unified Library for Evaluation of Large Language Models},
  author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
  journal={arXiv preprint arXiv:2312.07910},
  year={2023}
}

@article{zhu2023promptbench,
  title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
  author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
  journal={arXiv preprint arXiv:2306.04528},
  year={2023}
}

@article{zhu2023dyval,
  title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
  author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
  journal={arXiv preprint arXiv:2309.17167},
  year={2023}
}

@article{chang2023survey,
  title={A survey on evaluation of large language models},
  author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
  journal={arXiv preprint arXiv:2307.03109},
  year={2023}
}

기여

이 프로젝트는 기여와 제안을 환영합니다. 대부분의 기부금은 귀하가 귀하가 귀하의 기부금을 사용할 권리를 부여 할 권리가 있다고 선언하는 기고자 라이센스 계약 (CLA)에 동의해야합니다. 자세한 내용은 https://cla.opensource.microsoft.com을 방문하십시오.

풀 요청을 제출할 때 CLA 봇은 CLA를 제공하고 PR을 적절하게 장식 해야하는지 자동으로 결정합니다 (예 : 상태 점검, 댓글). 봇이 제공 한 지침을 따르십시오. CLA를 사용하여 모든 저장소에서 한 번만이 작업을 수행하면됩니다.

이 프로젝트는 Microsoft 오픈 소스 행동 강령을 채택했습니다. 자세한 내용은 추가 질문이나 의견이 있으면 행동 강령 FAQ 또는 [email protected]에 문의하십시오.

프롬프트 벤치가 더 좋게 만드는 제안이 있다면, repo를 포크하고 풀 요청을 만듭니다. "Enhancement"태그에 문제를 열면 간단히 문제를 열 수도 있습니다. 프로젝트에 별을주는 것을 잊지 마십시오! 다시 한 번 감사드립니다!

프로젝트를 포크하십시오
지점 만들기 ( git checkout -b your_name/your_branch )
변경 사항을 커밋하십시오 ( git commit -m 'Add some features' )
분기로 밀기 ( git push origin your_name/your_branch )
풀 요청을 엽니 다

상표

이 프로젝트에는 프로젝트, 제품 또는 서비스에 대한 상표 또는 로고가 포함될 수 있습니다. Microsoft 상표 또는 로고의 승인 된 사용에는 Microsoft의 상표 및 브랜드 지침이 적용되며 따라야합니다. 이 프로젝트의 수정 된 버전에서 Microsoft 상표 또는 로고를 사용한다고해서 혼란을 일으키거나 Microsoft 후원을 암시해서는 안됩니다. 타사 상표 또는 로고를 사용하면 타사 정책이 적용됩니다.

확장하다

추가 정보

버전 1.0.0
유형 AI 소스 코드
업데이트 시간 2025-07-01
크기 1.23MB
출처 Github

promptbench

뉴스 및 업데이트

소개

프롬프트 벤치는 현재 무엇을 제공하고 있습니까?

설치

`pip` 를 통해 설치하십시오

Github를 통해 설치하십시오

용법

구현 된 구성 요소

데이터 세트

모델

프롬프트 엔지니어링

대적 공격

프로토콜 및 분석

벤치 마크 결과

감사의 말

참조

프롬프트 벤치 및 기타 연구 논문을 인용합니다

기여

상표

ML stack

awesome free chatgpt

promptl

pywin_contextmenu

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

promptl

Google Dorks

shepherd

hidusbf

promptbench

뉴스 및 업데이트

소개

프롬프트 벤치는 현재 무엇을 제공하고 있습니까?

설치

pip 를 통해 설치하십시오

Github를 통해 설치하십시오

용법

구현 된 구성 요소

데이터 세트

모델

프롬프트 엔지니어링

대적 공격

프로토콜 및 분석

벤치 마크 결과

감사의 말

참조

프롬프트 벤치 및 기타 연구 논문을 인용합니다

기여

상표

`pip` 를 통해 설치하십시오