
Protebench : ห้องสมุดแบบครบวงจรสำหรับการประเมินและทำความเข้าใจแบบจำลองภาษาขนาดใหญ่
กระดาษ·เอกสาร·ลีดเดอร์บอร์ด·เอกสารเพิ่มเติม
Prottmbench เป็นแพ็คเกจ Python ที่ใช้ Pytorch สำหรับการประเมินผลของแบบจำลองภาษาขนาดใหญ่ (LLMS) มันให้ API ที่ใช้งานง่ายสำหรับนักวิจัยในการประเมินผลการประเมินเกี่ยวกับ LLMS ตรวจสอบรายงานทางเทคนิค: https://arxiv.org/abs/2312.07910
pipเราให้ บริการ แพ็คเกจ Python สำหรับผู้ใช้ที่ต้องการเริ่มการประเมินอย่างรวดเร็ว เพียงแค่วิ่ง:
pip install promptbenchโปรดทราบว่าการติดตั้ง PIP อาจอยู่เบื้องหลังการอัปเดตล่าสุด ดังนั้นหากคุณต้องการใช้คุณสมบัติล่าสุดหรือพัฒนาตามรหัสของเราคุณควรติดตั้งผ่าน GitHub
ก่อนอื่นโคลน repo:
git clone [email protected]:microsoft/promptbench.gitแล้ว,
cd promptbenchในการติดตั้งแพ็คเกจที่จำเป็นคุณสามารถสร้างสภาพแวดล้อมคอนด้า:
conda create --name promptbench python=3.9
conda activate promptbenchจากนั้นใช้ PIP เพื่อติดตั้งแพ็คเกจที่ต้องการ:
pip install -r requirements.txtโปรดทราบว่าสิ่งนี้ติดตั้งแพ็คเกจ Python พื้นฐานเท่านั้น สำหรับการโจมตีที่รวดเร็วคุณจะต้องติดตั้ง textattack ด้วย
Promptbench ใช้งานง่ายและขยาย การผ่านตัวอย่างด้านล่างจะช่วยให้คุณคุ้นเคยกับ ProttBench สำหรับการใช้งานอย่างรวดเร็วประเมินชุดข้อมูลและ LLM ที่มีอยู่หรือสร้างชุดข้อมูลและรุ่นของคุณเอง
โปรดดูการติดตั้งเพื่อติดตั้ง PromptBench ก่อน
หากติดตั้ง ProttBench ผ่าน pip คุณสามารถทำได้:
import promptbench as pb หากคุณติดตั้ง PromptBench จาก git และต้องการใช้ในโครงการอื่น ๆ :
import sys
# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )
# Now you can import promptbench by name
import promptbench as pbเรามีบทเรียนสำหรับ:
ปัจจุบัน PromptBench รองรับชุดข้อมูลรูปแบบที่แตกต่างกันวิธีการทางวิศวกรรมที่รวดเร็วการโจมตีของฝ่ายตรงข้ามและอื่น ๆ คุณสามารถเพิ่มเพิ่มเติมได้
รูปแบบภาษา:
โมเดลหลายรูปแบบ:
โปรดดูเว็บไซต์มาตรฐานของเราสำหรับผลการวัดประสิทธิภาพในการโจมตีที่รวดเร็ววิศวกรรมและการประเมินแบบไดนามิก Dyval
[1] Jason Wei และคณะ "โซ่แห่งความคิดกระตุ้นให้เกิดการให้เหตุผลในรูปแบบภาษาขนาดใหญ่" arxiv preprint arxiv: 2201.11903 (2022)
[2] Cheng Li, et al. "EmotionPrompt: การใช้ประโยชน์จากจิตวิทยาสำหรับการปรับปรุงแบบจำลองภาษาขนาดใหญ่ผ่านการกระตุ้นทางอารมณ์" arxiv preprint arxiv: 2307.11760 (2023)
[3] Benfeng Xu และคณะ "ผู้เชี่ยวชาญด้านการพิมพ์: การสอนแบบจำลองภาษาขนาดใหญ่เป็นผู้เชี่ยวชาญที่โดดเด่น" Arxiv preprint arxiv: 2305.14688 (2023)
[4] Zhu, Kaijie, et al. "Prottbench: ไปสู่การประเมินความทนทานของแบบจำลองภาษาขนาดใหญ่บนพรอมต์ของฝ่ายตรงข้าม" arxiv preprint arxiv: 2306.04528 (2023)
[5] Zhu, Kaijie, et al. "DYVAL: การประเมินแบบไดนามิกแบบกราฟของแบบจำลองภาษาขนาดใหญ่" arxiv preprint arxiv: 2309.17167 (2023)
[6] Liu J, Liu A, Lu X, และคณะ สร้างความรู้ที่สร้างขึ้นเพื่อการให้เหตุผลแบบทั่วไป [j] arxiv preprint arxiv: 2110.08387, 2021
[7] Zhou D, Schärli N, Hou L, และคณะ การแจ้งเตือนอย่างน้อยที่สุดช่วยให้การใช้เหตุผลที่ซับซ้อนในรูปแบบภาษาขนาดใหญ่ [J] arxiv preprint arxiv: 2205.10625, 2022
[8] Felipe Maia Polo และคณะ "PromptEval: การประเมินผลหลายครั้งที่มีประสิทธิภาพของแบบจำลองภาษา" arxiv preprint arxiv: 2405.17202
โปรดอ้างอิงเราหากคุณพบว่าโครงการนี้มีประโยชน์สำหรับโครงการ/กระดาษของคุณ:
@article{zhu2023promptbench2,
title={PromptBench: A Unified Library for Evaluation of Large Language Models},
author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
journal={arXiv preprint arXiv:2312.07910},
year={2023}
}
@article{zhu2023promptbench,
title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
journal={arXiv preprint arXiv:2306.04528},
year={2023}
}
@article{zhu2023dyval,
title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
journal={arXiv preprint arXiv:2309.17167},
year={2023}
}
@article{chang2023survey,
title={A survey on evaluation of large language models},
author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
journal={arXiv preprint arXiv:2307.03109},
year={2023}
}
โครงการนี้ยินดีต้อนรับการมีส่วนร่วมและข้อเสนอแนะ การมีส่วนร่วมส่วนใหญ่กำหนดให้คุณต้องยอมรับข้อตกลงใบอนุญาตผู้มีส่วนร่วม (CLA) ประกาศว่าคุณมีสิทธิ์และทำจริงให้สิทธิ์ในการใช้การบริจาคของคุณ สำหรับรายละเอียดเยี่ยมชม https://cla.opensource.microsoft.com
เมื่อคุณส่งคำขอดึง CLA บอทจะพิจารณาโดยอัตโนมัติว่าคุณจำเป็นต้องให้ CLA และตกแต่ง PR อย่างเหมาะสม (เช่นการตรวจสอบสถานะแสดงความคิดเห็น) เพียงทำตามคำแนะนำที่จัดทำโดยบอท คุณจะต้องทำสิ่งนี้เพียงครั้งเดียวใน repos ทั้งหมดโดยใช้ CLA ของเรา
โครงการนี้ได้นำรหัสการดำเนินงานของ Microsoft โอเพ่นซอร์สมาใช้ สำหรับข้อมูลเพิ่มเติมโปรดดูจรรยาบรรณคำถามที่พบบ่อยหรือติดต่อ [email protected] พร้อมคำถามหรือความคิดเห็นเพิ่มเติมใด ๆ
หากคุณมีข้อเสนอแนะที่จะทำให้ Promptbench ดีขึ้นโปรดแยก repo และสร้างคำขอดึง นอกจากนี้คุณยังสามารถเปิดปัญหาด้วยแท็ก "การปรับปรุง" อย่าลืมให้โครงการเป็นดารา! ขอบคุณอีกครั้ง!
git checkout -b your_name/your_branch )git commit -m 'Add some features' )git push origin your_name/your_branch )โครงการนี้อาจมีเครื่องหมายการค้าหรือโลโก้สำหรับโครงการผลิตภัณฑ์หรือบริการ การใช้เครื่องหมายการค้าหรือโลโก้ของ Microsoft ที่ได้รับอนุญาตขึ้นอยู่กับและต้องปฏิบัติตามแนวทางเครื่องหมายการค้าและแบรนด์ของ Microsoft การใช้เครื่องหมายการค้าหรือโลโก้ของ Microsoft ในรุ่นที่แก้ไขของโครงการนี้จะต้องไม่ทำให้เกิดความสับสนหรือบอกเป็นสปอนเซอร์ของ Microsoft การใช้เครื่องหมายการค้าหรือโลโก้ของบุคคลที่สามจะอยู่ภายใต้นโยบายของบุคคลที่สามเหล่านั้น