Unduh promptbench - Unduh Kode Sumber promptbench

promptbench

Kode Sumber AI

1.0.0

Unduh

PromptBench : Perpustakaan terpadu untuk mengevaluasi dan memahami model bahasa besar.
Kertas · dokumentasi · papan peringkat · lebih banyak makalah

Daftar isi

Berita dan pembaruan
Perkenalan
Instalasi
Penggunaan
Dataset dan model
Hasil benchmark
Ucapan Terima Kasih

Berita dan pembaruan

[19/08/2024] Tambahkan Dyval 2 (ICML 2024).
[19/08/2024] Gabungkan Prompteval, metode evaluasi multi-prompt yang efisien, ke dalam repositori ini.
[26/05/2024] Tambahkan dukungan untuk GPT-4O.
[13/03/2024] Tambahkan dukungan untuk model dan dataset multi-modal.
[05/01/2024] Tambahkan dukungan untuk dataset Bigbench Hard, Drop, ARC.
[16/12/2023] Tambahkan dukungan untuk model Gemini, Mistral, Mixtral, Baichuan, Yi.
[15/12/2023] Tambahkan instruksi terperinci untuk pengguna untuk menambahkan modul baru (model, dataset, dll.) Contoh/add_new_modules.md.
[05/12/2023] Diterbitkan PromptBench 0.0.1.

Perkenalan

PromptBench adalah paket python berbasis pytorch untuk evaluasi model bahasa besar (LLM). Ini menyediakan API yang ramah pengguna bagi para peneliti untuk melakukan evaluasi pada LLM. Periksa laporan teknis: https://arxiv.org/abs/2312.07910.

Apa yang disediakan oleh PromptBench saat ini?

Penilaian Kinerja Model Cepat: Kami menawarkan antarmuka yang ramah pengguna yang memungkinkan untuk membangun model cepat, pemuatan dataset, dan evaluasi kinerja model.
Prompt Engineering: Kami menerapkan beberapa metode rekayasa cepat. Misalnya: beberapa pemikiran rantai-shot [1], emosi yang diminta [2], pendukung ahli [3] dan sebagainya.
Mengevaluasi permintaan permusuhan: FREAKBENCH serangan prompt terintegrasi [4], memungkinkan para peneliti untuk mensimulasikan serangan prompt permusuhan kotak hitam pada model dan mengevaluasi ketahanannya (lihat detail di sini).
Evaluasi dinamis untuk mengurangi kontaminasi data uji potensial: kami mengintegrasikan kerangka evaluasi dinamis Dyval [5], yang menghasilkan sampel evaluasi secara langsung dengan kompleksitas terkontrol.
Evaluasi multi-prompt yang efisien : Kami mengintegrasikan metode evaluasi multi-prompt multi-prompt yang cepat [8]. Metode ini menggunakan kinerja LLMS pada sejumlah kecil data untuk membangun model seperti IRT. Model ini kemudian digunakan untuk memprediksi kinerja LLMS pada data yang tidak terlihat. Tes pada MMLU, BBH, dan Lentry menunjukkan bahwa metode ini memerlukan pengambilan sampel hanya 5% dari data untuk mengurangi kesalahan antara perkiraan dan kinerja aktual menjadi sekitar 2%.

Instalasi

Instal melalui `pip`

Kami menyediakan paket Python PromptBench untuk pengguna yang ingin memulai evaluasi dengan cepat. Cukup jalankan:

pip install promptbench

Perhatikan bahwa instalasi PIP bisa berada di belakang pembaruan terbaru. Jadi, jika Anda ingin menggunakan fitur terbaru atau mengembangkan berdasarkan kode kami, Anda harus menginstal melalui GitHub.

Instal melalui GitHub

Pertama, klon repo:

git clone [email protected]:microsoft/promptbench.git

Kemudian,

 cd promptbench

Untuk menginstal paket yang diperlukan, Anda dapat membuat lingkungan Conda:

conda create --name promptbench python=3.9
conda activate promptbench

Kemudian gunakan PIP untuk memasang paket yang diperlukan:

pip install -r requirements.txt

Perhatikan bahwa ini hanya memasang paket python dasar. Untuk serangan cepat, Anda juga perlu menginstal TextAttack.

Penggunaan

PromptBench mudah digunakan dan diperluas. Melewati contoh -contoh di bawah ini akan membantu Anda terbiasa dengan PromptBench untuk penggunaan cepat, mengevaluasi dataset dan LLM yang ada, atau membuat kumpulan data dan model Anda sendiri.

Silakan lihat instalasi untuk menginstal PromptBench terlebih dahulu.

Jika PromptBench diinstal melalui pip , Anda bisa melakukannya:

 import promptbench as pb

Jika Anda menginstal PromptBench dari git dan ingin menggunakannya di proyek lain:

 import sys

# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )

# Now you can import promptbench by name
import promptbench as pb

Kami menyediakan tutorial untuk:

Evaluasi model pada tolok ukur yang ada: Silakan merujuk ke contoh/dasar.ipynb untuk membangun pipa evaluasi Anda. Untuk pipa evaluasi multi-modal, silakan lihat contoh/multimodal.ipynb
Uji efek dari berbagai teknik yang diminta:
Periksa kekokohan untuk serangan cepat , silakan merujuk ke contoh/prompt_attack.ipynb untuk membangun serangan.
Gunakan dyval untuk evaluasi: silakan merujuk ke contoh/dyval.ipynb untuk membuat dataset dyval.
Evaluasi multi-prompt yang efisien menggunakan prompteval : silakan lihat contoh/efisiensi_multi_prompt_eval.ipynb

Komponen yang diimplementasikan

PromptBench saat ini mendukung berbagai set data, model, metode rekayasa prompt, serangan permusuhan, dan banyak lagi. Anda dipersilakan untuk menambahkan lebih banyak.

Kumpulan data

Dataset Bahasa:
- Lem: SST-2, Cola, QQP, MRPC, Mnli, Qnli, Rte, Wnli
- Mmlu
- Big Bighing Hard (Bool Logic, Valid tanda kurung, tanggal ...)
- Matematika
- GSM8K
- Skuad v2
- IWSLT 2017
- Un multi
- CSQA (COMONSENSE QA)
- Numersense
- Qasc
- Surat terakhir concatenate
Dataset multi-modal:
- VQAV2
- Nocaps
- MMMU
- Mathvista
- Ai2d
- Chartqa
- Scienceqa

Model

Model Bahasa:

Model open-source:
- Google/Flan-T5-Large
- Databricks/Dolly-V1-6B
- Seri llama2
- Vicuna-13b, Vicuna-13b-V1.3
- Cerebras/cerebras-gpt-13b
- Eleutherai/GPT-NEOX-20B
- Google/Flan-UL2
- PHI-1.5 dan phi-2
Model milik
- Palm 2
- GPT-3.5
- GPT-4
- Gemini Pro

Model multi-modal:

Model open-source:
- Blip2
- Llava
- Qwen-vl, qwen-vl-chat
- Internlm-xComposer2-vl
Model milik
- GPT-4V
- Visi Gemini Pro
- QWEN-VL-MAX, QWEN-VL-PLUS

Teknik yang cepat

Rantai-dipikirkan (cot) [1]
EmotionPromppt [2]
Pendukung ahli [3]
Rantai pemikiran zero-shot
Pengetahuan yang dihasilkan [6]
Paling tidak untuk kebanyakan [7]

Serangan permusuhan

Serangan tingkat karakter
- Deepwordbug
- TextBugger
Serangan level kata
- TextFooler
- Bertattack
Serangan tingkat kalimat
- Daftar periksa
- Tes stres
Serangan tingkat semantik
- Serangan kerajinan manusia

Protokol dan analisis

Evaluasi Standar
Evaluasi Dinamis
Evaluasi semantik
Hasil benchmark
Analisis Visualisasi
Analisis transferabilitas
Analisis frekuensi kata

Hasil benchmark

Silakan merujuk ke situs web benchmark kami untuk hasil benchmark pada serangan cepat, rekayasa cepat dan evaluasi dinamis Dyval.

Ucapan Terima Kasih

TextAttack
Template ReadMe
Kami berterima kasih kepada para sukarelawan: Hanyuan Zhang, Lingrui LI, Yating Zhou yang telah melakukan eksperimen pelestarian semantik dalam benchmark serangan cepat.

Referensi

[1] Jason Wei, et al. "Rantai yang mendorong memunculkan penalaran dalam model bahasa besar." ARXIV Preprint ARXIV: 2201.11903 (2022).

[2] Cheng Li, et al. "EmotionPromppt: Memanfaatkan Psikologi untuk Peningkatan Model Bahasa Besar melalui Stimulus Emosional." ARXIV Preprint ARXIV: 2307.11760 (2023).

[3] Benfeng Xu, et al. "PROGROPTING AHLI: Menginstruksikan model bahasa besar untuk menjadi ahli yang dibedakan" arxiv preprint arxiv: 2305.14688 (2023).

[4] Zhu, Kaijie, dkk. "PromptBench: Menuju mengevaluasi ketahanan model bahasa besar pada petunjuk permusuhan." ARXIV Preprint ARXIV: 2306.04528 (2023).

[5] Zhu, Kaijie, dkk. "Dyval: Evaluasi dinamis grafik yang diformed dari model bahasa besar." ARXIV Preprint ARXIV: 2309.17167 (2023).

[6] Liu J, Liu A, Lu X, dkk. Menghasilkan pengetahuan yang diminta untuk penalaran akal sehat [J]. ARXIV Preprint ARXIV: 2110.08387, 2021.

[7] Zhou D, Schärli N, Hou L, et al. Permintaan paling tidak paling penting memungkinkan penalaran kompleks dalam model bahasa besar [J]. ARXIV Preprint ARXIV: 2205.10625, 2022.

[8] Felipe Maia Polo, et al. "Prompteval: Evaluasi multi-prompt yang efisien dari model bahasa." ARXIV Preprint ARXIV: 2405.17202.

Mengutip promptbench dan makalah penelitian lainnya

Silakan mengutip kami jika Anda menemukan proyek ini bermanfaat untuk proyek/kertas Anda:

 @article{zhu2023promptbench2,
  title={PromptBench: A Unified Library for Evaluation of Large Language Models},
  author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
  journal={arXiv preprint arXiv:2312.07910},
  year={2023}
}

@article{zhu2023promptbench,
  title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
  author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
  journal={arXiv preprint arXiv:2306.04528},
  year={2023}
}

@article{zhu2023dyval,
  title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
  author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
  journal={arXiv preprint arXiv:2309.17167},
  year={2023}
}

@article{chang2023survey,
  title={A survey on evaluation of large language models},
  author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
  journal={arXiv preprint arXiv:2307.03109},
  year={2023}
}

Berkontribusi

Proyek ini menyambut kontribusi dan saran. Sebagian besar kontribusi mengharuskan Anda untuk menyetujui perjanjian lisensi kontributor (CLA) yang menyatakan bahwa Anda memiliki hak untuk, dan benar -benar melakukannya, beri kami hak untuk menggunakan kontribusi Anda. Untuk detailnya, kunjungi https://cla.opensource.microsoft.com.

Saat Anda mengirimkan permintaan tarik, bot CLA akan secara otomatis menentukan apakah Anda perlu memberikan CLA dan menghiasi PR secara tepat (misalnya, pemeriksaan status, komentar). Cukup ikuti instruksi yang disediakan oleh bot. Anda hanya perlu melakukan ini sekali di semua repo menggunakan CLA kami.

Proyek ini telah mengadopsi kode perilaku open source Microsoft. Untuk informasi lebih lanjut, lihat FAQ Kode Perilaku atau hubungi [email protected] dengan pertanyaan atau komentar tambahan.

Jika Anda memiliki saran yang akan membuat PromptBench lebih baik, silakan potong repo dan buat permintaan tarik. Anda juga bisa membuka masalah dengan tag "peningkatan". Jangan lupa memberi proyek bintang! Terima kasih lagi!

Garpu proyek
Buat cabang Anda ( git checkout -b your_name/your_branch )
Komit perubahan Anda ( git commit -m 'Add some features' )
Dorong ke cabang ( git push origin your_name/your_branch )
Buka permintaan tarik

Merek dagang

Proyek ini dapat berisi merek dagang atau logo untuk proyek, produk, atau layanan. Penggunaan resmi merek dagang atau logo Microsoft tunduk dan harus mengikuti pedoman merek dagang & merek Microsoft. Penggunaan merek dagang atau logo Microsoft dalam versi yang dimodifikasi dari proyek ini tidak boleh menyebabkan kebingungan atau menyiratkan sponsor Microsoft. Setiap penggunaan merek dagang atau logo pihak ketiga tunduk pada kebijakan pihak ketiga tersebut.

Memperluas

Informasi Tambahan