
PromptBench : Perpustakaan terpadu untuk mengevaluasi dan memahami model bahasa besar.
Kertas · dokumentasi · papan peringkat · lebih banyak makalah
PromptBench adalah paket python berbasis pytorch untuk evaluasi model bahasa besar (LLM). Ini menyediakan API yang ramah pengguna bagi para peneliti untuk melakukan evaluasi pada LLM. Periksa laporan teknis: https://arxiv.org/abs/2312.07910.
pipKami menyediakan paket Python PromptBench untuk pengguna yang ingin memulai evaluasi dengan cepat. Cukup jalankan:
pip install promptbenchPerhatikan bahwa instalasi PIP bisa berada di belakang pembaruan terbaru. Jadi, jika Anda ingin menggunakan fitur terbaru atau mengembangkan berdasarkan kode kami, Anda harus menginstal melalui GitHub.
Pertama, klon repo:
git clone [email protected]:microsoft/promptbench.gitKemudian,
cd promptbenchUntuk menginstal paket yang diperlukan, Anda dapat membuat lingkungan Conda:
conda create --name promptbench python=3.9
conda activate promptbenchKemudian gunakan PIP untuk memasang paket yang diperlukan:
pip install -r requirements.txtPerhatikan bahwa ini hanya memasang paket python dasar. Untuk serangan cepat, Anda juga perlu menginstal TextAttack.
PromptBench mudah digunakan dan diperluas. Melewati contoh -contoh di bawah ini akan membantu Anda terbiasa dengan PromptBench untuk penggunaan cepat, mengevaluasi dataset dan LLM yang ada, atau membuat kumpulan data dan model Anda sendiri.
Silakan lihat instalasi untuk menginstal PromptBench terlebih dahulu.
Jika PromptBench diinstal melalui pip , Anda bisa melakukannya:
import promptbench as pb Jika Anda menginstal PromptBench dari git dan ingin menggunakannya di proyek lain:
import sys
# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )
# Now you can import promptbench by name
import promptbench as pbKami menyediakan tutorial untuk:
PromptBench saat ini mendukung berbagai set data, model, metode rekayasa prompt, serangan permusuhan, dan banyak lagi. Anda dipersilakan untuk menambahkan lebih banyak.
Model Bahasa:
Model multi-modal:
Silakan merujuk ke situs web benchmark kami untuk hasil benchmark pada serangan cepat, rekayasa cepat dan evaluasi dinamis Dyval.
[1] Jason Wei, et al. "Rantai yang mendorong memunculkan penalaran dalam model bahasa besar." ARXIV Preprint ARXIV: 2201.11903 (2022).
[2] Cheng Li, et al. "EmotionPromppt: Memanfaatkan Psikologi untuk Peningkatan Model Bahasa Besar melalui Stimulus Emosional." ARXIV Preprint ARXIV: 2307.11760 (2023).
[3] Benfeng Xu, et al. "PROGROPTING AHLI: Menginstruksikan model bahasa besar untuk menjadi ahli yang dibedakan" arxiv preprint arxiv: 2305.14688 (2023).
[4] Zhu, Kaijie, dkk. "PromptBench: Menuju mengevaluasi ketahanan model bahasa besar pada petunjuk permusuhan." ARXIV Preprint ARXIV: 2306.04528 (2023).
[5] Zhu, Kaijie, dkk. "Dyval: Evaluasi dinamis grafik yang diformed dari model bahasa besar." ARXIV Preprint ARXIV: 2309.17167 (2023).
[6] Liu J, Liu A, Lu X, dkk. Menghasilkan pengetahuan yang diminta untuk penalaran akal sehat [J]. ARXIV Preprint ARXIV: 2110.08387, 2021.
[7] Zhou D, Schärli N, Hou L, et al. Permintaan paling tidak paling penting memungkinkan penalaran kompleks dalam model bahasa besar [J]. ARXIV Preprint ARXIV: 2205.10625, 2022.
[8] Felipe Maia Polo, et al. "Prompteval: Evaluasi multi-prompt yang efisien dari model bahasa." ARXIV Preprint ARXIV: 2405.17202.
Silakan mengutip kami jika Anda menemukan proyek ini bermanfaat untuk proyek/kertas Anda:
@article{zhu2023promptbench2,
title={PromptBench: A Unified Library for Evaluation of Large Language Models},
author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
journal={arXiv preprint arXiv:2312.07910},
year={2023}
}
@article{zhu2023promptbench,
title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
journal={arXiv preprint arXiv:2306.04528},
year={2023}
}
@article{zhu2023dyval,
title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
journal={arXiv preprint arXiv:2309.17167},
year={2023}
}
@article{chang2023survey,
title={A survey on evaluation of large language models},
author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
journal={arXiv preprint arXiv:2307.03109},
year={2023}
}
Proyek ini menyambut kontribusi dan saran. Sebagian besar kontribusi mengharuskan Anda untuk menyetujui perjanjian lisensi kontributor (CLA) yang menyatakan bahwa Anda memiliki hak untuk, dan benar -benar melakukannya, beri kami hak untuk menggunakan kontribusi Anda. Untuk detailnya, kunjungi https://cla.opensource.microsoft.com.
Saat Anda mengirimkan permintaan tarik, bot CLA akan secara otomatis menentukan apakah Anda perlu memberikan CLA dan menghiasi PR secara tepat (misalnya, pemeriksaan status, komentar). Cukup ikuti instruksi yang disediakan oleh bot. Anda hanya perlu melakukan ini sekali di semua repo menggunakan CLA kami.
Proyek ini telah mengadopsi kode perilaku open source Microsoft. Untuk informasi lebih lanjut, lihat FAQ Kode Perilaku atau hubungi [email protected] dengan pertanyaan atau komentar tambahan.
Jika Anda memiliki saran yang akan membuat PromptBench lebih baik, silakan potong repo dan buat permintaan tarik. Anda juga bisa membuka masalah dengan tag "peningkatan". Jangan lupa memberi proyek bintang! Terima kasih lagi!
git checkout -b your_name/your_branch )git commit -m 'Add some features' )git push origin your_name/your_branch )Proyek ini dapat berisi merek dagang atau logo untuk proyek, produk, atau layanan. Penggunaan resmi merek dagang atau logo Microsoft tunduk dan harus mengikuti pedoman merek dagang & merek Microsoft. Penggunaan merek dagang atau logo Microsoft dalam versi yang dimodifikasi dari proyek ini tidak boleh menyebabkan kebingungan atau menyiratkan sponsor Microsoft. Setiap penggunaan merek dagang atau logo pihak ketiga tunduk pada kebijakan pihak ketiga tersebut.