promptbench Download - promptbench Código Fonte Download

promptbench

Código-Fonte de IA

1.0.0

Baixar

PromptBench : Uma biblioteca unificada para avaliar e entender grandes modelos de linguagem.
Artigo · Documentação · Rabo de classificação · Mais papéis

Índice

Notícias e atualizações
Introdução
Instalação
Uso
Conjuntos de dados e modelos
Resultados de referência
Agradecimentos

Notícias e atualizações

[19/08/2024] Adicione Dyval 2 (ICML 2024).
[19/08/2024] Merge PromptEval, um método de avaliação eficiente de avaliação multi-prompt, nesse repositório.
[26/05/2024] Adicione suporte ao GPT-4O.
[13/03/2024] Adicione suporte para modelos e conjuntos de dados multimodais.
[05/05/2024] Adicione suporte para conjuntos de dados BigBench Hard, Drop e Arc.
[16/12/2023] Adicionar suporte para modelos Gemini, Mistral, Mixtral, Baichuan e Yi.
[15/12/2023] Adicione instruções detalhadas para os usuários adicionarem novos módulos (modelos, conjuntos de dados, etc.) Exemplos/add_new_modules.md.
[05/12/2023] publicado Promptbench 0.0.1.

Introdução

O PromptBench é um pacote Python baseado em Pytorch para avaliação de grandes modelos de idiomas (LLMS). Ele fornece APIs amigáveis para os pesquisadores realizarem avaliação no LLMS. Verifique o relatório técnico: https://arxiv.org/abs/2312.07910.

O que o PromptBench atualmente fornece?

Avaliação de desempenho do modelo rápido: oferecemos uma interface amigável que permite a criação rápida de modelos, o carregamento do conjunto de dados e a avaliação do desempenho do modelo.
Engenharia rápida: implementamos vários métodos de engenharia rápidos. Por exemplo: Cadeia de poucas pensamentos [1], prompt de emoção [2], especialista em busca [3] e assim por diante.
Avaliando os avisos adversários: PromptBench Integrada Ataques Prompt [4], permitindo que os pesquisadores simulem ataques imediatos adversários de caixa preta aos modelos e avalie sua robustez (consulte os detalhes aqui).
Avaliação dinâmica para mitigar a contaminação dos dados de teste potencial: integramos a estrutura de avaliação dinâmica Dyval [5], que gera amostras de avaliação on-the-fly com a complexidade controlada.
Avaliação eficiente de várias áreas : integramos o método de avaliação eficiente de avaliação multiprompt Prompt de [8]. Este método usa o desempenho do LLMS em uma pequena quantidade de dados para criar um modelo semelhante ao IRT. Este modelo é então usado para prever o desempenho do LLMS em dados invisíveis. Os testes em MMLU, BBH e LMENTRY mostram que esse método requer amostragem de apenas 5% dos dados para reduzir o erro entre o desempenho estimado e real para cerca de 2%.

Instalação

Instale via `pip`

Fornecemos um pacote Python PromptBench para usuários que desejam iniciar a avaliação rapidamente. Basta correr:

pip install promptbench

Observe que a instalação do PIP pode estar por trás das atualizações recentes. Portanto, se você deseja usar os recursos mais recentes ou desenvolver com base em nosso código, você deve instalar via GitHub.

Instale via github

Primeiro, clone o repo:

git clone [email protected]:microsoft/promptbench.git

Então,

 cd promptbench

Para instalar os pacotes necessários, você pode criar um ambiente do CONDA:

conda create --name promptbench python=3.9
conda activate promptbench

Em seguida, use o PIP para instalar os pacotes necessários:

pip install -r requirements.txt

Observe que isso instalou apenas pacotes básicos de Python. Para ataques imediatos, você também precisará instalar o TextAttack.

Uso

PromptBench é fácil de usar e estender. Passar pelos exemplos abaixo ajudará você a se familiarizar com o PromptBench para uso rápido, avaliar os conjuntos de dados e LLMs existentes ou criar seus próprios conjuntos de dados e modelos.

Consulte a instalação para instalar o PromptBench primeiro.

Se o PromptBench estiver instalado via pip , você pode simplesmente fazer:

 import promptbench as pb

Se você instalou o PromptBench do git e deseja usá -lo em outros projetos:

 import sys

# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )

# Now you can import promptbench by name
import promptbench as pb

Fornecemos tutoriais para:

Avalie os modelos nos benchmarks existentes: consulte os exemplos/basic.ipynb para construir seu pipeline de avaliação. Para um pipeline de avaliação multimodal, consulte exemplos/multimodal.ipynb
Teste os efeitos de diferentes técnicas de solicitação:
Examine a robustez para ataques imediatos , consulte Exemplos/Prompt_attack.ipynb para construir os ataques.
Use Dyval para avaliação: Consulte Exemplos/Dyval.ipynb para construir conjuntos de dados DYVAL.
Avaliação eficiente de várias propriedades usando o PromptEval : Consulte Exemplos/Eficient_multi_prompt_eval.ipynb

Componentes implementados

Atualmente, o PromptBench suporta diferentes conjuntos de dados, modelos, métodos de engenharia imediata, ataques adversários e muito mais. Você pode adicionar mais.

Conjuntos de dados

Conjuntos de dados de idiomas:
- Cola: sst-2, cola, qqp, mrpc, mnli, qnli, rte, wnli
- Mmlu
- Hard-bench (lógica bool, parênteses válidos, data ...)
- Matemática
- GSM8K
- Esquadrão V2
- IWSLT 2017
- Un multi
- CSQA (controle de controle de senso comum)
- NumerSense
- Qasc
- Última carta concatenando
Conjuntos de dados multimodais:
- VQAV2
- Nocaps
- Mmmu
- Mathvista
- Ai2d
- ChartQa
- Scienceqa

Modelos

Modelos de idiomas:

Modelos de código aberto:
- Google/Flan-T5-Large
- Databricks/dolly-v1-6b
- Série LLAMA2
- Vicuna-13b, Vicuna-13b-V1.3
- Cerebras/Cerebras-GPT-13B
- Eleutherai/GPT-Neox-20B
- Google/flan-ul2
- Phi-1.5 e Phi-2
Modelos proprietários
- Palm 2
- GPT-3.5
- GPT-4
- Gemini Pro

Modelos multimodais:

Modelos de código aberto:
- Blip2
- Llava
- QWEN-VL, QWEN-VL-CAT
- Internlm-xcomposer2-VL
Modelos proprietários
- GPT-4V
- Gemini Pro Vision
- QWEN-VL-MAX, QWEN-VL-PLUS

Engenharia rápida

Cadeia de pensamento (COT) [1]
EmotionPrompt [2]
Especialista solicitando [3]
Cadeia de pensamento zero-tiro
Conhecimento gerado [6]
Menos para a maioria [7]

Ataques adversários

Ataque no nível do personagem
- DeepWordBug
- Textbugger
Ataque no nível da palavra
- TextFooler
- Bertattack
Ataque no nível da sentença
- Lista de verificação
- Teste de estresse
Ataque de nível semântico
- Ataque criado por humanos

Protocolos e análise

Avaliação padrão
Avaliação dinâmica
Avaliação semântica
Resultados de referência
Análise de visualização
Análise de transferibilidade
Análise de frequência de palavras

Resultados de referência

Consulte o nosso site de referência para obter resultados de referência em ataques imediatos, pronta para a engenharia e a avaliação dinâmica Dyval.

Agradecimentos

Textattack
README MODELO
Agradecemos aos voluntários: Hanyuan Zhang, Lingrui Li, Yating Zhou por conduzir o experimento semântico de preservação em uma pronta referência de ataque.

Referência

[1] Jason Wei, et al. "Cadeia de pensamento provocando provas o raciocínio em grandes modelos de idiomas". Arxiv pré -impressão Arxiv: 2201.11903 (2022).

[2] Cheng Li, et al. "Emoção: aproveitando a psicologia para grandes modelos de idiomas por meio de estímulo emocional". Arxiv pré -impressão arxiv: 2307.11760 (2023).

[3] Benfeng Xu, et al. "ExpertPrompting: Instruindo grandes modelos de linguagem a serem distintos especialistas" Arxiv pré -impressão Arxiv: 2305.14688 (2023).

[4] Zhu, Kaijie, et al. "PromptBench: para avaliar a robustez de grandes modelos de linguagem em avisos adversários". Arxiv pré -impressão arxiv: 2306.04528 (2023).

[5] Zhu, Kaijie, et al. "Dyval: avaliação dinâmica informada por gráfico de grandes modelos de linguagem". Arxiv pré -impressão Arxiv: 2309.17167 (2023).

[6] Liu J, Liu A, Lu X, et al. Conhecimento gerado solicitando o raciocínio de senso comum [j]. Arxiv pré -impressão Arxiv: 2110.08387, 2021.

[7] Zhou D, Schärli N, Hou L, et al. O pedido menos ao máximo permite o raciocínio complexo em grandes modelos de idiomas [J]. Arxiv pré -impressão Arxiv: 2205.10625, 2022.

[8] Felipe Maia Polo, et al. "PromptEval: avaliação eficiente de modelos de idiomas". Arxiv pré -impressão Arxiv: 2405.17202.

Citando PromptBench e outros trabalhos de pesquisa

Cite -nos se achar este projeto útil para o seu projeto/papel:

 @article{zhu2023promptbench2,
  title={PromptBench: A Unified Library for Evaluation of Large Language Models},
  author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
  journal={arXiv preprint arXiv:2312.07910},
  year={2023}
}

@article{zhu2023promptbench,
  title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
  author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
  journal={arXiv preprint arXiv:2306.04528},
  year={2023}
}

@article{zhu2023dyval,
  title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
  author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
  journal={arXiv preprint arXiv:2309.17167},
  year={2023}
}

@article{chang2023survey,
  title={A survey on evaluation of large language models},
  author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
  journal={arXiv preprint arXiv:2307.03109},
  year={2023}
}

Contribuindo

Este projeto recebe contribuições e sugestões. A maioria das contribuições exige que você concorde com um Contrato de Licença de Colaborador (CLA) declarando que você tem o direito e, na verdade, concede -nos os direitos de usar sua contribuição. Para detalhes, visite https://cla.opensource.microsoft.com.

Quando você envia uma solicitação de tração, um BOT do CLA determina automaticamente se você precisa fornecer um CLA e decorar o PR adequadamente (por exemplo, verificação de status, comentar). Simplesmente siga as instruções fornecidas pelo bot. Você só precisará fazer isso uma vez em todos os repositórios usando nosso CLA.

Este projeto adotou o Código de Conduta Open Microsoft. Para obter mais informações, consulte o Código de Conduta Perguntas frequentes ou entre em contato com [email protected] com quaisquer perguntas ou comentários adicionais.

Se você tiver uma sugestão que tornaria o PromptBench melhor, bire o repositório e crie uma solicitação de tração. Você também pode simplesmente abrir um problema com a tag "aprimoramento". Não se esqueça de dar uma estrela ao projeto! Obrigado novamente!

Bifurcar o projeto
Crie sua filial ( git checkout -b your_name/your_branch )
Compreenda suas alterações ( git commit -m 'Add some features' )
Empurre para o ramo ( git push origin your_name/your_branch )
Abra um pedido de tração

Marcas comerciais

Este projeto pode conter marcas comerciais ou logotipos para projetos, produtos ou serviços. O uso autorizado de marcas comerciais ou logotipos da Microsoft está sujeito e deve seguir as diretrizes de marca registrada e marca da Microsoft. O uso de marcas comerciais da Microsoft ou logotipos em versões modificadas deste projeto não deve causar confusão ou implicar o patrocínio da Microsoft. Qualquer uso de marcas comerciais ou logotipos de terceiros estão sujeitas às políticas de terceiros.

Expandir

Informações adicionais