
PREDBENC : una biblioteca unificada para evaluar y comprender modelos de idiomas grandes.
Documento · Documentación · Raeperboard · Más documentos
PractBench es un paquete de Python basado en Pytorch para la evaluación de modelos de idiomas grandes (LLM). Proporciona API fáciles de usar para que los investigadores realicen evaluación en LLM. Consulte el informe técnico: https://arxiv.org/abs/2312.07910.
pipProporcionamos un paquete Python Practbench para los usuarios que desean comenzar la evaluación rápidamente. Simplemente ejecute:
pip install promptbenchTenga en cuenta que la instalación de PIP podría estar detrás de las actualizaciones recientes. Por lo tanto, si desea utilizar las últimas funciones o desarrollar en función de nuestro código, debe instalar a través de GitHub.
Primero, clona el repositorio:
git clone [email protected]:microsoft/promptbench.gitEntonces,
cd promptbenchPara instalar los paquetes requeridos, puede crear un entorno de condena:
conda create --name promptbench python=3.9
conda activate promptbenchLuego use PIP para instalar los paquetes requeridos:
pip install -r requirements.txtTenga en cuenta que esto solo instaló paquetes básicos de Python. Para ataques inmediatos, también necesitará instalar TextAttack.
PractBench es fácil de usar y extender. Pasar por los ejemplos a continuación lo ayudará a familiarizarse con Pridbench para un uso rápido, evaluar los conjuntos de datos y LLM existentes, o crear sus propios conjuntos de datos y modelos.
Consulte la instalación para instalar PractBench primero.
Si se instala Prompbench a través de pip , simplemente puede hacer:
import promptbench as pb Si instaló PractBench de git y desea usarlo en otros proyectos:
import sys
# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )
# Now you can import promptbench by name
import promptbench as pbProporcionamos tutoriales para:
La pridbench actualmente admite diferentes conjuntos de datos, modelos, métodos de ingeniería rápidos, ataques adversos y más. Eres bienvenido a agregar más.
Modelos de idiomas:
Modelos multimodales:
Consulte nuestro sitio web de referencia para obtener resultados de referencia en ataques rápidos, ingeniería rápida y Dyval de evaluación dinámica.
[1] Jason Wei, et al. "La provisión de la cadena de pensamiento provoca un razonamiento en modelos de idiomas grandes". Preimpresión ARXIV ARXIV: 2201.11903 (2022).
[2] Cheng Li, et al. "EmocionPrompt: aprovechando la psicología para la mejora de los modelos de idiomas grandes a través del estímulo emocional". Preimpresión ARXIV ARXIV: 2307.11760 (2023).
[3] Benfeng Xu, et al. "Expertprompting: instruyendo a los grandes modelos de idiomas a ser expertos distinguidos" Arxiv Preprint ARXIV: 2305.14688 (2023).
[4] Zhu, Kaijie, et al. "Principal: para evaluar la robustez de los modelos de lenguaje grandes en las indicaciones adversas". Preimpresión ARXIV ARXIV: 2306.04528 (2023).
[5] Zhu, Kaijie, et al. "Dyval: evaluación dinámica informada por gráficos de modelos de idiomas grandes". Preimpresión ARXIV ARXIV: 2309.17167 (2023).
[6] Liu J, Liu A, Lu X, et al. Conocimiento generado que solicita el razonamiento de sentido común [j]. Preimpresión ARXIV ARXIV: 2110.08387, 2021.
[7] Zhou D, Schärli N, Hou L, et al. La solicitud de menor a mayoría permite un razonamiento complejo en modelos de idiomas grandes [j]. Preimpresión ARXIV ARXIV: 2205.10625, 2022.
[8] Felipe Maia Polo, et al. "Prácticas Eval: Evaluación eficiente de múltiples prompt de modelos de lenguaje". preimpresión ARXIV ARXIV: 2405.17202.
Por favor, cíquenos si encuentra que este proyecto sea útil para su proyecto/papel:
@article{zhu2023promptbench2,
title={PromptBench: A Unified Library for Evaluation of Large Language Models},
author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
journal={arXiv preprint arXiv:2312.07910},
year={2023}
}
@article{zhu2023promptbench,
title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
journal={arXiv preprint arXiv:2306.04528},
year={2023}
}
@article{zhu2023dyval,
title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
journal={arXiv preprint arXiv:2309.17167},
year={2023}
}
@article{chang2023survey,
title={A survey on evaluation of large language models},
author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
journal={arXiv preprint arXiv:2307.03109},
year={2023}
}
Este proyecto da la bienvenida a las contribuciones y sugerencias. La mayoría de las contribuciones requieren que acepte un Acuerdo de Licencia de Contributor (CLA) que declare que tiene derecho y realmente hacernos los derechos para utilizar su contribución. Para más detalles, visite https://cla.opensource.microsoft.com.
Cuando envíe una solicitud de extracción, un BOT CLA determinará automáticamente si necesita proporcionar un CLA y decorar el PR adecuadamente (por ejemplo, verificación de estado, comentario). Simplemente siga las instrucciones proporcionadas por el bot. Solo necesitará hacer esto una vez en todos los reposos usando nuestro CLA.
Este proyecto ha adoptado el Código de Conducta Open Open Microsoft. Para obtener más información, consulte el Código de Conducta Preguntas frecuentes o comuníquese con [email protected] con cualquier pregunta o comentario adicional.
Si tiene una sugerencia que mejore la bola de pridbench, bifurca el repositorio y cree una solicitud de extracción. También puede simplemente abrir un problema con la etiqueta "Mejora". ¡No olvides darle una estrella al proyecto! ¡Gracias de nuevo!
git checkout -b your_name/your_branch )git commit -m 'Add some features' )git push origin your_name/your_branch )Este proyecto puede contener marcas comerciales o logotipos para proyectos, productos o servicios. El uso autorizado de marcas o logotipos de Microsoft está sujeto y debe seguir las pautas de marca y marca de Microsoft. El uso de marcas registradas de Microsoft o logotipos en versiones modificadas de este proyecto no debe causar confusión o implicar el patrocinio de Microsoft. Cualquier uso de marcas comerciales o logotipos de terceros está sujeto a las políticas de esas partes de terceros.