Descarga de promptbench - Descargar el código fuente promptbench

promptbench

Código Fuente de IA

1.0.0

Descargar

PREDBENC : una biblioteca unificada para evaluar y comprender modelos de idiomas grandes.
Documento · Documentación · Raeperboard · Más documentos

Tabla de contenido

Noticias y actualizaciones
Introducción
Instalación
Uso
Conjuntos de datos y modelos
Resultados de referencia
Expresiones de gratitud

Noticias y actualizaciones

[19/08/2024] Agregue Dyval 2 (ICML 2024).
[19/08/2024] Fusionar PractVal, un método de evaluación eficiente de multiprompt, en este repositorio.
[26/05/2024] Agregue soporte para GPT-4O.
[13/03/2024] Agregue soporte para modelos y conjuntos de datos multimodales.
[05/01/2024] Agregue soporte para conjuntos de datos BigBench Hard, Drop, ARC.
[16/12/2023] Agregue soporte para Gemini, Modelos MIXTRAL, Baichuan, Yi.
[15/12/2023] Agregue instrucciones detalladas para que los usuarios agregue nuevos módulos (modelos, conjuntos de datos, etc.) ejemplos/add_new_modules.md.
[05/12/2023] Publicado PractBench 0.0.1.

Introducción

PractBench es un paquete de Python basado en Pytorch para la evaluación de modelos de idiomas grandes (LLM). Proporciona API fáciles de usar para que los investigadores realicen evaluación en LLM. Consulte el informe técnico: https://arxiv.org/abs/2312.07910.

¿Qué proporciona actualmente Prompbench?

Evaluación rápida del rendimiento del modelo: ofrecemos una interfaz fácil de usar que permite una construcción rápida de modelos, carga del conjunto de datos y evaluación del rendimiento del modelo.
Ingeniería rápida: implementamos varios métodos de ingeniería rápidos. Por ejemplo: pocos disparos de pensamiento [1], aviso de emoción [2], indicación experta [3], etc.
Evaluación de indicaciones adversas: prontbench ataques de inmediato integrados [4], lo que permite a los investigadores simular ataques de información adversa en la caja negra a los modelos y evaluar su robustez (ver detalles aquí).
Evaluación dinámica para mitigar la posible contaminación de datos de la prueba: integramos el marco de evaluación dinámica Dyval [5], que genera muestras de evaluación sobre la marcha con complejidad controlada.
Evaluación eficiente de multiprompt : integramos el método de evaluación de múltiples promptas eficientes previamente, evalte [8]. Este método utiliza el rendimiento de LLM en una pequeña cantidad de datos para construir un modelo similar a IRT. Este modelo se utiliza para predecir el rendimiento de LLM en datos invisibles. Las pruebas en MMLU, BBH y LMETRY muestran que este método requiere un muestreo solo el 5% de los datos para reducir el error entre el rendimiento estimado y real a alrededor del 2%.

Instalación

Instalar a través de `pip`

Proporcionamos un paquete Python Practbench para los usuarios que desean comenzar la evaluación rápidamente. Simplemente ejecute:

pip install promptbench

Tenga en cuenta que la instalación de PIP podría estar detrás de las actualizaciones recientes. Por lo tanto, si desea utilizar las últimas funciones o desarrollar en función de nuestro código, debe instalar a través de GitHub.

Instalar a través de Github

Primero, clona el repositorio:

git clone [email protected]:microsoft/promptbench.git

Entonces,

 cd promptbench

Para instalar los paquetes requeridos, puede crear un entorno de condena:

conda create --name promptbench python=3.9
conda activate promptbench

Luego use PIP para instalar los paquetes requeridos:

pip install -r requirements.txt

Tenga en cuenta que esto solo instaló paquetes básicos de Python. Para ataques inmediatos, también necesitará instalar TextAttack.

Uso

PractBench es fácil de usar y extender. Pasar por los ejemplos a continuación lo ayudará a familiarizarse con Pridbench para un uso rápido, evaluar los conjuntos de datos y LLM existentes, o crear sus propios conjuntos de datos y modelos.

Consulte la instalación para instalar PractBench primero.

Si se instala Prompbench a través de pip , simplemente puede hacer:

 import promptbench as pb

Si instaló PractBench de git y desea usarlo en otros proyectos:

 import sys

# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )

# Now you can import promptbench by name
import promptbench as pb

Proporcionamos tutoriales para:

Evaluar modelos en puntos de referencia existentes: consulte los ejemplos/Basic.ipynb para construir su tubería de evaluación. Para una tubería de evaluación multimodal, consulte ejemplos/multimodal.ipynb
Pruebe los efectos de las diferentes técnicas de incorporación:
Examine la robustez de los ataques rápidos , consulte Ejemplos/Prompt_attack.ipynb para construir los ataques.
Use Dyval para la evaluación: consulte Ejemplos/Dyval.ipynb para construir conjuntos de datos de Dyval.
Evaluación multiprompt eficiente utilizando PractVal : consulte Ejemplos/EFEMPLIMIENTO_MULTI_PROMPT_EVAL.IPYNB

Componentes implementados

La pridbench actualmente admite diferentes conjuntos de datos, modelos, métodos de ingeniería rápidos, ataques adversos y más. Eres bienvenido a agregar más.

Conjuntos de datos

Conjuntos de datos de idiomas:
- Glue: SST-2, Cola, QQP, MRPC, Mnli, Qnli, RTE, WNLI
- MMLU
- Big-Bench Hard (lógica de bool, paréntesis válidas, fecha ...)
- Matemáticas
- GSM8K
- Escuadrón V2
- IWSLT 2017
- Un Multi
- CSQA (QA de sentido común)
- NumerSense
- QASC
- Última carta concatenate
Conjuntos de datos multimodales:
- VQAV2
- Nocaps
- Mmmu
- Mathvista
- Ai2d
- Chartqa
- Cienciaqa

Modelos

Modelos de idiomas:

Modelos de código abierto:
- Google/Flan-T5-Large
- databricks/dolly-v1-6b
- Serie Llama2
- Vicuna-13b, Vicuna-13b-V1.3
- Cerebras/cerebras-gpt-13b
- ELEUTHERAI/GPT-NOOX-20B
- Google/Flan-UL2
- Phi-1.5 y Phi-2
Modelos propietarios
- Palma 2
- GPT-3.5
- GPT-4
- Géminis Pro

Modelos multimodales:

Modelos de código abierto:
- Blip2
- Llava
- QWEN-VL, QWEN-VL-CHAT
- Internlm-xComposer2-VL
Modelos propietarios
- GPT-4V
- Gemini Pro Vision
- QWEN-VL-MAX, QWEN-VL-PLUS

Ingeniería rápida

Cadena de pensamiento (cot) [1]
EmrocesPrompt [2]
Información de expertos [3]
Cadena de pensamiento
Conocimiento generado [6]
Menos para la mayoría [7]

Ataques adversos

Ataque a nivel de personaje
- Profundo
- Cazador de texto
Ataque a nivel de palabras
- Textfooler
- Bertata
Ataque a nivel de oración
- Lista de verificación
- Estrés
Ataque a nivel semántico
- Ataque humano

Protocolos y análisis

Evaluación estándar
Evaluación dinámica
Evaluación semántica
Resultados de referencia
Análisis de visualización
Análisis de transferibilidad
Análisis de frecuencia de palabras

Resultados de referencia

Consulte nuestro sitio web de referencia para obtener resultados de referencia en ataques rápidos, ingeniería rápida y Dyval de evaluación dinámica.

Expresiones de gratitud

Patio de texto
Plantilla de lectura
Agradecemos a los voluntarios: Hanyuan Zhang, Lingrui Li, Ying Zhou por llevar a cabo el experimento de preservación semántica en un punto de referencia de ataque rápido.

Referencia

[1] Jason Wei, et al. "La provisión de la cadena de pensamiento provoca un razonamiento en modelos de idiomas grandes". Preimpresión ARXIV ARXIV: 2201.11903 (2022).

[2] Cheng Li, et al. "EmocionPrompt: aprovechando la psicología para la mejora de los modelos de idiomas grandes a través del estímulo emocional". Preimpresión ARXIV ARXIV: 2307.11760 (2023).

[3] Benfeng Xu, et al. "Expertprompting: instruyendo a los grandes modelos de idiomas a ser expertos distinguidos" Arxiv Preprint ARXIV: 2305.14688 (2023).

[4] Zhu, Kaijie, et al. "Principal: para evaluar la robustez de los modelos de lenguaje grandes en las indicaciones adversas". Preimpresión ARXIV ARXIV: 2306.04528 (2023).

[5] Zhu, Kaijie, et al. "Dyval: evaluación dinámica informada por gráficos de modelos de idiomas grandes". Preimpresión ARXIV ARXIV: 2309.17167 (2023).

[6] Liu J, Liu A, Lu X, et al. Conocimiento generado que solicita el razonamiento de sentido común [j]. Preimpresión ARXIV ARXIV: 2110.08387, 2021.

[7] Zhou D, Schärli N, Hou L, et al. La solicitud de menor a mayoría permite un razonamiento complejo en modelos de idiomas grandes [j]. Preimpresión ARXIV ARXIV: 2205.10625, 2022.

[8] Felipe Maia Polo, et al. "Prácticas Eval: Evaluación eficiente de múltiples prompt de modelos de lenguaje". preimpresión ARXIV ARXIV: 2405.17202.

Citando pridbench y otros trabajos de investigación

Por favor, cíquenos si encuentra que este proyecto sea útil para su proyecto/papel:

 @article{zhu2023promptbench2,
  title={PromptBench: A Unified Library for Evaluation of Large Language Models},
  author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
  journal={arXiv preprint arXiv:2312.07910},
  year={2023}
}

@article{zhu2023promptbench,
  title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
  author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
  journal={arXiv preprint arXiv:2306.04528},
  year={2023}
}

@article{zhu2023dyval,
  title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
  author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
  journal={arXiv preprint arXiv:2309.17167},
  year={2023}
}

@article{chang2023survey,
  title={A survey on evaluation of large language models},
  author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
  journal={arXiv preprint arXiv:2307.03109},
  year={2023}
}

Que contribuye

Este proyecto da la bienvenida a las contribuciones y sugerencias. La mayoría de las contribuciones requieren que acepte un Acuerdo de Licencia de Contributor (CLA) que declare que tiene derecho y realmente hacernos los derechos para utilizar su contribución. Para más detalles, visite https://cla.opensource.microsoft.com.

Cuando envíe una solicitud de extracción, un BOT CLA determinará automáticamente si necesita proporcionar un CLA y decorar el PR adecuadamente (por ejemplo, verificación de estado, comentario). Simplemente siga las instrucciones proporcionadas por el bot. Solo necesitará hacer esto una vez en todos los reposos usando nuestro CLA.

Este proyecto ha adoptado el Código de Conducta Open Open Microsoft. Para obtener más información, consulte el Código de Conducta Preguntas frecuentes o comuníquese con [email protected] con cualquier pregunta o comentario adicional.

Si tiene una sugerencia que mejore la bola de pridbench, bifurca el repositorio y cree una solicitud de extracción. También puede simplemente abrir un problema con la etiqueta "Mejora". ¡No olvides darle una estrella al proyecto! ¡Gracias de nuevo!

Bifurca el proyecto
Crea tu rama ( git checkout -b your_name/your_branch )
Confirme sus cambios ( git commit -m 'Add some features' )
Empuje a la rama ( git push origin your_name/your_branch )
Abra una solicitud de extracción

Marcas registradas

Este proyecto puede contener marcas comerciales o logotipos para proyectos, productos o servicios. El uso autorizado de marcas o logotipos de Microsoft está sujeto y debe seguir las pautas de marca y marca de Microsoft. El uso de marcas registradas de Microsoft o logotipos en versiones modificadas de este proyecto no debe causar confusión o implicar el patrocinio de Microsoft. Cualquier uso de marcas comerciales o logotipos de terceros está sujeto a las políticas de esas partes de terceros.

Expandir

Información adicional