
Rocmplybench : объединенная библиотека для оценки и понимания больших языковых моделей.
Документ · Документация · Таблица лидеров · Больше бумаг
Rackbench -это пакет Python на основе Pytorch для оценки крупных языковых моделей (LLMS). Он предоставляет удобные для пользователя API для исследователей для проведения оценки LLMS. Проверьте технический отчет: https://arxiv.org/abs/2312.07910.
pipМы предоставляем Python Package Quickbench для пользователей, которые хотят быстро начать оценку. Просто беги:
pip install promptbenchОбратите внимание, что установка PIP может быть за недавними обновлениями. Таким образом, если вы хотите использовать последние функции или разработать на основе нашего кода, вы должны установить через GitHub.
Во -первых, клонировать репо:
git clone [email protected]:microsoft/promptbench.gitЗатем,
cd promptbenchЧтобы установить необходимые пакеты, вы можете создать среду Conda:
conda create --name promptbench python=3.9
conda activate promptbenchЗатем используйте PIP, чтобы установить необходимые пакеты:
pip install -r requirements.txtОбратите внимание, что это только установили базовые пакеты Python. Для быстрой атаки вам также нужно будет установить TextAttack.
rackbench легко использовать и расширять. Просмотр приведенных ниже примеров поможет вам познакомиться с Quickbench для быстрого использования, оценки существующих наборов данных и LLMS или создать свои собственные наборы данных и модели.
Пожалуйста, смотрите установку для установки racksbench в первую очередь.
Если QuickBench установлен через pip , вы можете просто сделать:
import promptbench as pb Если вы установили rackbench из git и хотите использовать его в других проектах:
import sys
# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )
# Now you can import promptbench by name
import promptbench as pbМы предоставляем учебники для:
В настоящее время rackbench поддерживает различные наборы данных, модели, методы быстрого инженера, состязательные атаки и многое другое. Вы можете добавить больше.
Языковые модели:
Многомодальные модели:
Пожалуйста, обратитесь к нашему эталонному веб -сайту для результатов эталона по приглашению на быстрые атаки, быстрое инженерное и динамическое оценку Dyval.
[1] Jason Wei, et al. «Подача в цепочке мыслей вызывает рассуждения в крупных языковых моделях». Arxiv Preprint arxiv: 2201.11903 (2022).
[2] Cheng Li, et al. «EmotionPrompt: использует психологию для улучшения больших языковых моделей с помощью эмоционального стимула». Arxiv Preprint arxiv: 2307.11760 (2023).
[3] Benfeng Xu, et al. «Expert Propming: инструктирование моделей крупных языков, чтобы быть различными экспертами» Arxiv Preprint Arxiv: 2305.14688 (2023).
[4] Zhu, Kaijie, et al. «Щетка: к оценке надежности крупных языковых моделей на подсказках состязания». Arxiv Preprint arxiv: 2306.04528 (2023).
[5] Zhu, Kaijie, et al. «Dyval: График-информированная динамическая оценка крупных языковых моделей». Arxiv Preprint arxiv: 2309.17167 (2023).
[6] Лю Дж., Лю А., Лу Х и др. Сгенерированные знания, подсказывающие обоснование рассуждений [J]. Arxiv Preprint arxiv: 2110.08387, 2021.
[7] Zhou D, Schärli N, Hou L, et al. Наименьшее количество подсказок позволяет сложные рассуждения в крупных языковых моделях [J]. Arxiv Preprint arxiv: 2205.10625, 2022.
[8] Felipe Maia Polo, et al. «Prompteval: эффективная многопрофлясная оценка языковых моделей». Arxiv Preprint arxiv: 2405.17202.
Пожалуйста, цитируйте нас, если вы найдете этот проект полезным для вашего проекта/бумаги:
@article{zhu2023promptbench2,
title={PromptBench: A Unified Library for Evaluation of Large Language Models},
author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
journal={arXiv preprint arXiv:2312.07910},
year={2023}
}
@article{zhu2023promptbench,
title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
journal={arXiv preprint arXiv:2306.04528},
year={2023}
}
@article{zhu2023dyval,
title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
journal={arXiv preprint arXiv:2309.17167},
year={2023}
}
@article{chang2023survey,
title={A survey on evaluation of large language models},
author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
journal={arXiv preprint arXiv:2307.03109},
year={2023}
}
Этот проект приветствует вклады и предложения. Большинство взносов требуют, чтобы вы согласились с лицензионным соглашением о участнике (CLA), заявив, что вы имеете право и фактически предоставить нам права на использование вашего вклада. Для получения подробной информации, посетите https://cla.opensource.microsoft.com.
Когда вы отправляете запрос на привлечение, бот CLA автоматически определит, нужно ли вам предоставить CLA и правильно украсить PR (например, проверка состояния, комментарий). Просто следуйте инструкциям, предоставленным ботом. Вам нужно будет сделать это только один раз во всех репо, используя наш CLA.
Этот проект принял код поведения с открытым исходным кодом Microsoft. Для получения дополнительной информации см. Кодекс поведения FAQ или свяжитесь с [email protected] с любыми дополнительными вопросами или комментариями.
Если у вас есть предложение, которое сделает Quickbench лучше, пожалуйста, разделите репо и создайте запрос на притяжение. Вы также можете просто открыть проблему с тегом «Улучшение». Не забудьте дать проекту звезду! Еще раз спасибо!
git checkout -b your_name/your_branch )git commit -m 'Add some features' )git push origin your_name/your_branch )Этот проект может содержать товарные знаки или логотипы для проектов, продуктов или услуг. Уполномоченное использование товарных знаков или логотипов Microsoft подлежит и должно следовать указаниям Microsoft по товарной марке и брендам. Использование товарных знаков Microsoft или логотипов в модифицированных версиях этого проекта не должно вызывать путаницу или подразумевать спонсорство Microsoft. Любое использование сторонних товарных знаков или логотипов подвержена политике сторонних сторон.