Téléchargement promptbench - Téléchargement du code source de promptbench

promptbench

Code Source AI

1.0.0

Télécharger

PromptBench : une bibliothèque unifiée pour évaluer et comprendre les modèles de gros langues.
Papier · Documentation · Cabilations · Plus de papiers

Table des matières

Nouvelles et mises à jour
Introduction
Installation
Usage
Ensembles de données et modèles
Résultats de référence
Remerciements

Nouvelles et mises à jour

[19/08/2024] Ajouter Dyval 2 (ICML 2024).
[19/08/2024] Merge Prompteval, une méthode d'évaluation multi-propulsion efficace, dans ce référentiel.
[26/05/2024] Ajouter la prise en charge de GPT-4O.
[13/03/2024] Ajouter la prise en charge des modèles et des ensembles de données multimodaux.
[05/01/2024] Ajoutez la prise en charge de Bigbench Hard, Drop, Arc DataSets.
[16/12/2023] Ajouter le support pour les modèles Gemini, Mistral, Mixtral, Baichuan, Yi.
[15/12/2023] Ajouter des instructions détaillées pour que les utilisateurs puissent ajouter de nouveaux modules (modèles, ensembles de données, etc.) Exemples / add_new_modules.md.
[05/12/2023] Publié PromptBench 0.0.1.

Introduction

PromptBench est un package Python basé sur Pytorch pour l'évaluation des modèles de grande langue (LLMS). Il fournit des API conviviales aux chercheurs pour effectuer une évaluation sur les LLM. Vérifiez le rapport technique: https://arxiv.org/abs/2312.07910.

Que fournit le promptbench actuellement?

Évaluation rapide des performances du modèle: nous proposons une interface conviviale qui permet la construction rapide du modèle, le chargement de l'ensemble de données et l'évaluation des performances du modèle.
Ingénierie rapide: nous avons mis en œuvre plusieurs méthodes d'ingénierie rapides. Par exemple: la chaîne de pensées à quelques coups [1], l'invite des émotions [2], l'incitation experte [3] et ainsi de suite.
Évaluation des invites adversaires: Invitebench a intégré des attaques rapides [4], permettant aux chercheurs de simuler des attaques invites adversaires de la boîte noire contre les modèles et d'évaluer leur robustesse (voir les détails ici).
Évaluation dynamique pour atténuer la contamination potentielle des données de test: nous avons intégré le dynamique du cadre d'évaluation Dyval [5], qui génère des échantillons d'évaluation à la volée avec une complexité contrôlée.
Évaluation efficace multi-processus : nous avons intégré la méthode d'évaluation multi-multiples efficace PROMPTEVAL [8]. Cette méthode utilise les performances de LLMS sur une petite quantité de données pour construire un modèle de type IRT. Ce modèle est ensuite utilisé pour prédire les performances de LLMS sur les données invisibles. Les tests sur MMLU, BBH et Lmentry montrent que cette méthode nécessite d'échantillonnage seulement 5% des données pour réduire l'erreur entre les performances estimées et réelles à environ 2%.

Installation

Installer via `pip`

Nous fournissons un package d'invite Python pour les utilisateurs qui souhaitent commencer l'évaluation rapidement. Courez simplement:

pip install promptbench

Notez que l'installation PIP pourrait être à l'origine des récentes mises à jour. Donc, si vous souhaitez utiliser les dernières fonctionnalités ou développer en fonction de notre code, vous devez installer via GitHub.

Installer via github

Tout d'abord, cloner le repo:

git clone [email protected]:microsoft/promptbench.git

Alors,

 cd promptbench

Pour installer les packages requis, vous pouvez créer un environnement conda:

conda create --name promptbench python=3.9
conda activate promptbench

Ensuite, utilisez PIP pour installer les packages requis:

pip install -r requirements.txt

Notez que cela n'a installé que des packages Python de base. Pour les attaques rapides, vous devrez également installer TextAttack.

Usage

PromptBench est facile à utiliser et à étendre. Le fait de passer par les exemples ci-dessous vous aidera à vous familiariser avec l'invite pour une utilisation rapide, à évaluer les ensembles de données et les LLM existants, ou à créer vos propres ensembles de données et modèles.

Veuillez consulter l'installation pour installer PromptBench en premier.

Si PromptBench est installé via pip , vous pouvez simplement faire:

 import promptbench as pb

Si vous avez installé PromptBench de git et que vous souhaitez l'utiliser dans d'autres projets:

 import sys

# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )

# Now you can import promptbench by name
import promptbench as pb

Nous fournissons des tutoriels pour:

Évaluer les modèles sur les références existantes: veuillez vous référer aux exemples / basiques.Ipynb pour construire votre pipeline d'évaluation. Pour un pipeline d'évaluation multimodal, veuillez vous référer aux exemples / multimodal.ipynb
Testez les effets de différentes techniques d'incitation:
Examinez la robustesse pour les attaques rapides , veuillez vous référer à des exemples / prompt_attack.ipynb pour construire les attaques.
Utilisez Dyval pour l'évaluation: veuillez vous référer aux exemples / dyval.ipynb pour construire des ensembles de données DYVAL.
Évaluation efficace multi-présentant à l'aide de PromPteval : veuillez vous référer à des exemples / efficace_multi_prompt_eval.ipynb

Composants implémentés

PromptBench prend actuellement en charge différents ensembles de données, modèles, méthodes d'ingénierie rapide, attaques contradictoires, etc. Vous êtes invités à en ajouter plus.

Ensembles de données

Ensembles de données de langue:
- Glue: SST-2, COLA, QQP, MRPC, MNLI, QNLI, RTE, WNLI
- MMLU
- Big-Bench dur (logique bool, parenthèses valides, date ...)
- Mathématiques
- GSM8K
- Escouade v2
- IWSLT 2017
- ONU Multi
- CSQA (CommunsenS QA)
- Nombir
- QASC
- Dernière lettre concaténat
Ensembles de données multimodaux:
- Vqav2
- Nocaps
- MMMU
- Mathvista
- AI2D
- Chartqa
- Scienceqa

Modèles

Modèles linguistiques:

Modèles open source:
- Google / Flan-T5-Gar
- Databricks / Dolly-V1-6B
- Série Llama2
- vicuna-13b, vicuna-13b-v1.3
- Cerebras / Cerebras-GPT-13B
- Eleutherai / gpt-neox-20b
- Google / Flan-UL2
- phi-1,5 et phi-2
Modèles propriétaires
- Palmier 2
- GPT-3.5
- Gpt-4
- Gémeaux Pro

Modèles multimodaux:

Modèles open source:
- Blip2
- Llave
- Qwen-vl, qwen-vl-chat
- Interlm-xcomposer2-vl
Modèles propriétaires
- GPT-4V
- Gémeaux Pro Vision
- Qwen-vl-max, qwen-vl-plus

Ingénierie rapide

Chaîne de pensées (COT) [1]
EmotionPrompt [2]
Invitation d'experts [3]
Chaîne de pensées zéro
Connaissances générées [6]
Le moins à la plupart [7]

Attaques contradictoires

Attaque au niveau du personnage
- Deepwordbug
- Texto
Attaque au niveau des mots
- Textfooleur
- Coiffer
Attaque au niveau de la phrase
- Liste de contrôle
- Test de stress
Attaque au niveau sémantique
- Attaque artisanale

Protocoles et analyse

Évaluation standard
Évaluation dynamique
Évaluation sémantique
Résultats de référence
Analyse de visualisation
Analyse de transférabilité
Analyse de la fréquence des mots

Résultats de référence

Veuillez vous référer à notre site Web de référence pour les résultats de référence sur les attaques rapides, l'ingénierie rapide et l'évaluation dynamique Dyval.

Remerciements

Textattaque
Modèle de réadme
Nous remercions les bénévoles: Hanyuan Zhang, Lingrui Li, Yatin Zhou pour avoir mené l'expérience de préservation sémantique dans l'indice de référence d'attaque rapide.

Référence

[1] Jason Wei, et al. "L'incitation de la chaîne de pensées suscite un raisonnement dans des modèles de grande langue." ARXIV Préprint Arxiv: 2201.11903 (2022).

[2] Cheng Li, et al. "EmotionProckpt: Tireing Psychology pour les grands modèles de langage Amélioration des modèles via un stimulus émotionnel." ARXIV PRÉALLAGE ARXIV: 2307.11760 (2023).

[3] Benfeng Xu, et al. "Experte-compting: instruire les modèles de grande langue comme des experts distingués" Arxiv Preprint Arxiv: 2305.14688 (2023).

[4] Zhu, Kaijie, et al. "Promptbench: vers l'évaluation de la robustesse des modèles de gros langues sur les invites contradictoires." ARXIV PRÉALLAGE ARXIV: 2306.04528 (2023).

[5] Zhu, Kaijie, et al. "Dyval: évaluation dynamique informée de graphes des modèles de grands langues." ARXIV PRÉMENTATION ARXIV: 2309.17167 (2023).

[6] Liu J, Liu A, Lu X, et al. Généré des connaissances provoquant un raisonnement de bon sens [J]. ARXIV PRÉALLAGE ARXIV: 2110.08387, 2021.

[7] Zhou D, Schärli N, Hou L, et al. La moindre incitation la plus importante permet un raisonnement complexe dans les modèles de grande langue [J]. ARXIV Préprint Arxiv: 2205.10625, 2022.

[8] Felipe Maia Polo, et al. "Prompteval: Évaluation efficace multi-présentant des modèles linguistiques." ARXIV PRÉALLAGE ARXIV: 2405.17202.

Citant Promptbench et d'autres articles de recherche

Veuillez nous citer si vous trouvez ce projet utile pour votre projet / document:

 @article{zhu2023promptbench2,
  title={PromptBench: A Unified Library for Evaluation of Large Language Models},
  author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
  journal={arXiv preprint arXiv:2312.07910},
  year={2023}
}

@article{zhu2023promptbench,
  title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
  author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
  journal={arXiv preprint arXiv:2306.04528},
  year={2023}
}

@article{zhu2023dyval,
  title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
  author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
  journal={arXiv preprint arXiv:2309.17167},
  year={2023}
}

@article{chang2023survey,
  title={A survey on evaluation of large language models},
  author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
  journal={arXiv preprint arXiv:2307.03109},
  year={2023}
}

Contributif

Ce projet accueille les contributions et les suggestions. La plupart des contributions vous obligent à accepter un accord de licence de contributeur (CLA) déclarant que vous avez le droit de faire et en fait, accordez-nous les droits d'utilisation de votre contribution. Pour plus de détails, visitez https://cla.opensource.microsoft.com.

Lorsque vous soumettez une demande de traction, un bot CLA déterminera automatiquement si vous devez fournir un CLA et décorer le RP de manière appropriée (par exemple, vérification d'état, commentaire). Suivez simplement les instructions fournies par le bot. Vous n'aurez besoin de le faire qu'une seule fois sur tous les dépositions en utilisant notre CLA.

Ce projet a adopté le code de conduite open source Microsoft. Pour plus d'informations, consultez le code de conduite FAQ ou contactez [email protected] avec toute question ou commentaire supplémentaire.

Si vous avez une suggestion qui améliorerait l'invite, veuillez déborder le dépôt et créer une demande de traction. Vous pouvez également ouvrir simplement un problème avec la balise "amélioration". N'oubliez pas de donner une étoile au projet! Merci encore!

Fourk le projet
Créez votre branche ( git checkout -b your_name/your_branch )
Commissez vos modifications ( git commit -m 'Add some features' )
Poussez à la branche ( git push origin your_name/your_branch )
Ouvrir une demande de traction

Marques

Ce projet peut contenir des marques ou des logos pour des projets, des produits ou des services. L'utilisation autorisée de marques ou de logos Microsoft est soumise et doit suivre les directives de marque et de marque de Microsoft. L'utilisation de marques ou de logos de Microsoft dans des versions modifiées de ce projet ne doit pas provoquer de confusion ou impliquer le parrainage de Microsoft. Toute utilisation de marques ou de logos tiers est soumis aux politiques de ces tiers.

Développer

Informations supplémentaires