ดาวน์โหลด promptbench - ดาวน์โหลดซอร์สโค้ด promptbench

promptbench

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

Protebench : ห้องสมุดแบบครบวงจรสำหรับการประเมินและทำความเข้าใจแบบจำลองภาษาขนาดใหญ่
กระดาษ·เอกสาร·ลีดเดอร์บอร์ด·เอกสารเพิ่มเติม

สารบัญ

ข่าวและการอัปเดต
การแนะนำ
การติดตั้ง
การใช้งาน
ชุดข้อมูลและรุ่น
ผลการวัดผล
กิตติกรรมประกาศ

ข่าวและการอัปเดต

[19/08/2024] เพิ่ม Dyval 2 (ICML 2024)
[19/08/2024] ผสาน Promteval ซึ่งเป็นวิธีการประเมินผลหลายครั้งที่มีประสิทธิภาพในที่เก็บนี้
[26/05/2024] เพิ่มการสนับสนุนสำหรับ GPT-4O
[13/03/2024] เพิ่มการสนับสนุนสำหรับรุ่นและชุดข้อมูลหลายโมเดล
[05/01/2024] เพิ่มการสนับสนุนสำหรับ BigBench Hard, Drop, ชุดข้อมูล ARC
[16/12/2023] เพิ่มการสนับสนุนสำหรับราศีเมถุน, Mistral, Mixtral, Baichuan, Yi Models
[15/12/2023] เพิ่มคำแนะนำโดยละเอียดสำหรับผู้ใช้เพื่อเพิ่มโมดูลใหม่ (โมเดลชุดข้อมูล ฯลฯ ) ตัวอย่าง/add_new_modules.md
[05/12/2023] เผยแพร่พรอมต์ Bench 0.0.1

การแนะนำ

Prottmbench เป็นแพ็คเกจ Python ที่ใช้ Pytorch สำหรับการประเมินผลของแบบจำลองภาษาขนาดใหญ่ (LLMS) มันให้ API ที่ใช้งานง่ายสำหรับนักวิจัยในการประเมินผลการประเมินเกี่ยวกับ LLMS ตรวจสอบรายงานทางเทคนิค: https://arxiv.org/abs/2312.07910

ปัจจุบัน Prottbench จัดเตรียมอะไรไว้บ้าง?

การประเมินประสิทธิภาพแบบจำลองอย่างรวดเร็ว: เรานำเสนออินเทอร์เฟซที่ใช้งานง่ายซึ่งช่วยให้การสร้างแบบจำลองอย่างรวดเร็วการโหลดชุดข้อมูลและการประเมินประสิทธิภาพของโมเดล
วิศวกรรมที่รวดเร็ว: เราใช้วิธีการทางวิศวกรรมที่รวดเร็วหลายวิธี ตัวอย่างเช่น: ห่วงโซ่ไม่กี่-ช็อต-ความคิด [1], Emotion Prompt [2], ผู้เชี่ยวชาญที่แจ้งให้ [3] และอื่น ๆ
การประเมินการแจ้งเตือนที่เป็นปฏิปักษ์: การโจมตีพร้อมท์การโจมตีแบบบูรณาการพร้อมกัน [4] ช่วยให้นักวิจัยสามารถจำลองการโจมตีด้วยการโจมตีที่เป็นปฏิปักษ์ของกล่องดำในแบบจำลองและประเมินความแข็งแกร่งของพวกเขา (ดูรายละเอียดที่นี่)
การประเมินแบบไดนามิกเพื่อลดการปนเปื้อนของข้อมูลการทดสอบที่มีศักยภาพ: เราได้รวม Dyval Framework Dyval [5] ซึ่งสร้างตัวอย่างการประเมินผลในระยะ-fly กับความซับซ้อนที่ควบคุมได้
การประเมินผลหลายครั้งที่มีประสิทธิภาพ : เรารวมวิธีการประเมินผลหลายครั้งที่มีประสิทธิภาพ prottEval [8] วิธีนี้ใช้ประสิทธิภาพของ LLMs ในข้อมูลจำนวนเล็กน้อยเพื่อสร้างแบบจำลองที่เหมือน IRT แบบจำลองนี้จะใช้เพื่อทำนายประสิทธิภาพของ LLMs บนข้อมูลที่มองไม่เห็น การทดสอบเกี่ยวกับ MMLU, BBH และ Lmentry แสดงให้เห็นว่าวิธีนี้ต้องมีการสุ่มตัวอย่างเพียง 5% ของข้อมูลเพื่อลดข้อผิดพลาดระหว่างประสิทธิภาพโดยประมาณและประสิทธิภาพจริงประมาณ 2%

การติดตั้ง

ติดตั้งผ่าน `pip`

เราให้ บริการ แพ็คเกจ Python สำหรับผู้ใช้ที่ต้องการเริ่มการประเมินอย่างรวดเร็ว เพียงแค่วิ่ง:

pip install promptbench

โปรดทราบว่าการติดตั้ง PIP อาจอยู่เบื้องหลังการอัปเดตล่าสุด ดังนั้นหากคุณต้องการใช้คุณสมบัติล่าสุดหรือพัฒนาตามรหัสของเราคุณควรติดตั้งผ่าน GitHub

ติดตั้งผ่าน GitHub

ก่อนอื่นโคลน repo:

git clone [email protected]:microsoft/promptbench.git

แล้ว,

 cd promptbench

ในการติดตั้งแพ็คเกจที่จำเป็นคุณสามารถสร้างสภาพแวดล้อมคอนด้า:

conda create --name promptbench python=3.9
conda activate promptbench

จากนั้นใช้ PIP เพื่อติดตั้งแพ็คเกจที่ต้องการ:

pip install -r requirements.txt

โปรดทราบว่าสิ่งนี้ติดตั้งแพ็คเกจ Python พื้นฐานเท่านั้น สำหรับการโจมตีที่รวดเร็วคุณจะต้องติดตั้ง textattack ด้วย

การใช้งาน

Promptbench ใช้งานง่ายและขยาย การผ่านตัวอย่างด้านล่างจะช่วยให้คุณคุ้นเคยกับ ProttBench สำหรับการใช้งานอย่างรวดเร็วประเมินชุดข้อมูลและ LLM ที่มีอยู่หรือสร้างชุดข้อมูลและรุ่นของคุณเอง

โปรดดูการติดตั้งเพื่อติดตั้ง PromptBench ก่อน

หากติดตั้ง ProttBench ผ่าน pip คุณสามารถทำได้:

 import promptbench as pb

หากคุณติดตั้ง PromptBench จาก git และต้องการใช้ในโครงการอื่น ๆ :

 import sys

# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )

# Now you can import promptbench by name
import promptbench as pb

เรามีบทเรียนสำหรับ:

ประเมินแบบจำลองเกี่ยวกับเกณฑ์มาตรฐานที่มีอยู่: โปรดดูตัวอย่าง/พื้นฐาน. IPYNB สำหรับการสร้างท่อประเมินของคุณ สำหรับไปป์ไลน์การประเมินแบบหลายโหมดโปรดดูตัวอย่าง/multimodal.ipynb
ทดสอบผลกระทบของเทคนิคการแจ้งเตือนที่แตกต่างกัน:
ตรวจสอบความทนทานสำหรับการโจมตีที่รวดเร็ว โปรดดูตัวอย่าง/protff_attack.ipynb เพื่อสร้างการโจมตี
ใช้ dyval สำหรับการประเมินผล: โปรดดูตัวอย่าง/dyval.ipynb เพื่อสร้างชุดข้อมูล Dyval
การประเมินผลหลาย prompt ที่มีประสิทธิภาพโดยใช้ PromptEval : โปรดดูตัวอย่าง/efficient_multi_prompt_eval.ipynb

ส่วนประกอบที่ใช้งาน

ปัจจุบัน PromptBench รองรับชุดข้อมูลรูปแบบที่แตกต่างกันวิธีการทางวิศวกรรมที่รวดเร็วการโจมตีของฝ่ายตรงข้ามและอื่น ๆ คุณสามารถเพิ่มเพิ่มเติมได้

ชุดข้อมูล

ชุดข้อมูลภาษา:
- กาว: SST-2, COLA, QQP, MRPC, MNLI, QNLI, RTE, WNLI
- mmlu
- บิ๊กเบนช์แข็ง (ตรรกะบูล, วงเล็บที่ถูกต้อง, วันที่ ... )
- คณิตศาสตร์
- GSM8K
- ทีม v2
- iwslt 2017
- UN Multi
- CSQA (Pommonsense QA)
- ตัวเลข
- qasc
- จดหมายฉบับสุดท้าย concatenate
ชุดข้อมูลหลายรูปแบบ:
- VQAV2
- nocaps
- MMMU
- Mathvista
- AI2D
- ชาร์ตกา
- ScienceQa

แบบจำลอง

รูปแบบภาษา:

โมเดลโอเพนซอร์ซ:
- Google/Flan-T5 ขนาดใหญ่
- Databricks/Dolly-V1-6B
- ซีรีส์ Llama2
- Vicuna-13b, Vicuna-13b-v1.3
- สมอง/cerebras-GPT-13B
- eleutherai/gpt-neox-20b
- Google/flan-ul2
- phi-1.5 และ phi-2
แบบจำลองที่เป็นกรรมสิทธิ์
- ปาล์ม 2
- GPT-3.5
- GPT-4
- ราศีเมถุน

โมเดลหลายรูปแบบ:

โมเดลโอเพนซอร์ซ:
- blip2
- Llava
- qwen-vl, qwen-vl-chat
- internlm-xcomposer2-vl
แบบจำลองที่เป็นกรรมสิทธิ์
- GPT-4V
- วิสัยทัศน์ของราศีเมถุน
- QWEN-VL-MAX, QWEN-VL-PLUS

วิศวกรรมที่รวดเร็ว

โซ่แห่งความคิด (COT) [1]
EmotionPrompt [2]
ผู้เชี่ยวชาญแจ้ง [3]
zero-shot chain-of-though
สร้างความรู้ [6]
อย่างน้อยที่สุด [7]

การโจมตีของฝ่ายตรงข้าม

การโจมตีระดับตัวละคร
- deepwordbug
- นักเขียนข้อความ
การโจมตีระดับคำ
- TextFooler
- การโจมตีด้วยเบิร์ต
การโจมตีระดับประโยค
- รายการตรวจสอบ
- การทดสอบความเครียด
การโจมตีระดับความหมาย
- การโจมตีที่มนุษย์สร้างขึ้น

โปรโตคอลและการวิเคราะห์

การประเมินมาตรฐาน
การประเมินแบบไดนามิก
การประเมินความหมาย
ผลการวัดผล
การวิเคราะห์การสร้างภาพ
การวิเคราะห์ความสามารถในการถ่ายโอน
การวิเคราะห์ความถี่ของคำ

ผลการวัดผล

โปรดดูเว็บไซต์มาตรฐานของเราสำหรับผลการวัดประสิทธิภาพในการโจมตีที่รวดเร็ววิศวกรรมและการประเมินแบบไดนามิก Dyval

กิตติกรรมประกาศ

การโจมตีข้อความ
เทมเพลต readme
เราขอขอบคุณอาสาสมัคร: Hanyuan Zhang, Lingrui Li, Yating Zhou สำหรับการทำการทดลองรักษาความหมายในเกณฑ์มาตรฐานการโจมตีที่รวดเร็ว

อ้างอิง

[1] Jason Wei และคณะ "โซ่แห่งความคิดกระตุ้นให้เกิดการให้เหตุผลในรูปแบบภาษาขนาดใหญ่" arxiv preprint arxiv: 2201.11903 (2022)

[2] Cheng Li, et al. "EmotionPrompt: การใช้ประโยชน์จากจิตวิทยาสำหรับการปรับปรุงแบบจำลองภาษาขนาดใหญ่ผ่านการกระตุ้นทางอารมณ์" arxiv preprint arxiv: 2307.11760 (2023)

[3] Benfeng Xu และคณะ "ผู้เชี่ยวชาญด้านการพิมพ์: การสอนแบบจำลองภาษาขนาดใหญ่เป็นผู้เชี่ยวชาญที่โดดเด่น" Arxiv preprint arxiv: 2305.14688 (2023)

[4] Zhu, Kaijie, et al. "Prottbench: ไปสู่การประเมินความทนทานของแบบจำลองภาษาขนาดใหญ่บนพรอมต์ของฝ่ายตรงข้าม" arxiv preprint arxiv: 2306.04528 (2023)

[5] Zhu, Kaijie, et al. "DYVAL: การประเมินแบบไดนามิกแบบกราฟของแบบจำลองภาษาขนาดใหญ่" arxiv preprint arxiv: 2309.17167 (2023)

[6] Liu J, Liu A, Lu X, และคณะ สร้างความรู้ที่สร้างขึ้นเพื่อการให้เหตุผลแบบทั่วไป [j] arxiv preprint arxiv: 2110.08387, 2021

[7] Zhou D, Schärli N, Hou L, และคณะ การแจ้งเตือนอย่างน้อยที่สุดช่วยให้การใช้เหตุผลที่ซับซ้อนในรูปแบบภาษาขนาดใหญ่ [J] arxiv preprint arxiv: 2205.10625, 2022

[8] Felipe Maia Polo และคณะ "PromptEval: การประเมินผลหลายครั้งที่มีประสิทธิภาพของแบบจำลองภาษา" arxiv preprint arxiv: 2405.17202

อ้างถึง Promptbench และงานวิจัยอื่น ๆ

โปรดอ้างอิงเราหากคุณพบว่าโครงการนี้มีประโยชน์สำหรับโครงการ/กระดาษของคุณ:

 @article{zhu2023promptbench2,
  title={PromptBench: A Unified Library for Evaluation of Large Language Models},
  author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
  journal={arXiv preprint arXiv:2312.07910},
  year={2023}
}

@article{zhu2023promptbench,
  title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
  author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
  journal={arXiv preprint arXiv:2306.04528},
  year={2023}
}

@article{zhu2023dyval,
  title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
  author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
  journal={arXiv preprint arXiv:2309.17167},
  year={2023}
}

@article{chang2023survey,
  title={A survey on evaluation of large language models},
  author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
  journal={arXiv preprint arXiv:2307.03109},
  year={2023}
}

การบริจาค

โครงการนี้ยินดีต้อนรับการมีส่วนร่วมและข้อเสนอแนะ การมีส่วนร่วมส่วนใหญ่กำหนดให้คุณต้องยอมรับข้อตกลงใบอนุญาตผู้มีส่วนร่วม (CLA) ประกาศว่าคุณมีสิทธิ์และทำจริงให้สิทธิ์ในการใช้การบริจาคของคุณ สำหรับรายละเอียดเยี่ยมชม https://cla.opensource.microsoft.com

เมื่อคุณส่งคำขอดึง CLA บอทจะพิจารณาโดยอัตโนมัติว่าคุณจำเป็นต้องให้ CLA และตกแต่ง PR อย่างเหมาะสม (เช่นการตรวจสอบสถานะแสดงความคิดเห็น) เพียงทำตามคำแนะนำที่จัดทำโดยบอท คุณจะต้องทำสิ่งนี้เพียงครั้งเดียวใน repos ทั้งหมดโดยใช้ CLA ของเรา

โครงการนี้ได้นำรหัสการดำเนินงานของ Microsoft โอเพ่นซอร์สมาใช้ สำหรับข้อมูลเพิ่มเติมโปรดดูจรรยาบรรณคำถามที่พบบ่อยหรือติดต่อ [email protected] พร้อมคำถามหรือความคิดเห็นเพิ่มเติมใด ๆ

หากคุณมีข้อเสนอแนะที่จะทำให้ Promptbench ดีขึ้นโปรดแยก repo และสร้างคำขอดึง นอกจากนี้คุณยังสามารถเปิดปัญหาด้วยแท็ก "การปรับปรุง" อย่าลืมให้โครงการเป็นดารา! ขอบคุณอีกครั้ง!

แยกโครงการ
สร้างสาขาของคุณ ( git checkout -b your_name/your_branch )
กระทำการเปลี่ยนแปลงของคุณ ( git commit -m 'Add some features' )
กดไปที่สาขา ( git push origin your_name/your_branch )
เปิดคำขอดึง

เครื่องหมายการค้า

โครงการนี้อาจมีเครื่องหมายการค้าหรือโลโก้สำหรับโครงการผลิตภัณฑ์หรือบริการ การใช้เครื่องหมายการค้าหรือโลโก้ของ Microsoft ที่ได้รับอนุญาตขึ้นอยู่กับและต้องปฏิบัติตามแนวทางเครื่องหมายการค้าและแบรนด์ของ Microsoft การใช้เครื่องหมายการค้าหรือโลโก้ของ Microsoft ในรุ่นที่แก้ไขของโครงการนี้จะต้องไม่ทำให้เกิดความสับสนหรือบอกเป็นสปอนเซอร์ของ Microsoft การใช้เครื่องหมายการค้าหรือโลโก้ของบุคคลที่สามจะอยู่ภายใต้นโยบายของบุคคลที่สามเหล่านั้น

ขยาย

ข้อมูลเพิ่มเติม