Загрузка promptbench - Загрузка исходного кода promptbench

promptbench

AI Исходный код

1.0.0

Скачать

Rocmplybench : объединенная библиотека для оценки и понимания больших языковых моделей.
Документ · Документация · Таблица лидеров · Больше бумаг

Оглавление

Новости и обновления
Введение
Установка
Использование
Наборы данных и модели
Контрольные результаты
Благодарности

Новости и обновления

[19/08/2024] Добавьте Dyval 2 (ICML 2024).
[19/08/2024] Merge Prompteval, эффективный метод оценки с несколькими проплыками, в этот репозиторий.
[26/05/2024] Добавьте поддержку GPT-4O.
[13/03/2024] Добавьте поддержку мультимодальных моделей и наборов данных.
[05/01/2024] Добавьте поддержку Bigbench Hard, Drop, ARC Dataets.
[16/12/2023] Добавьте поддержку Близнецов, Мисстраль, Микстрал, Бачуань, YI.
[15/12/2023] Добавьте подробные инструкции для пользователей, чтобы добавить новые модули (модели, наборы данных и т. Д.) Примеры/add_new_modules.md.
[05/12/2023] Опубликовано Quickbench 0.0.1.

Введение

Rackbench -это пакет Python на основе Pytorch для оценки крупных языковых моделей (LLMS). Он предоставляет удобные для пользователя API для исследователей для проведения оценки LLMS. Проверьте технический отчет: https://arxiv.org/abs/2312.07910.

Что в настоящее время предоставляет rackbench?

Быстрая оценка производительности модели: мы предлагаем удобный интерфейс, который позволяет быстро создавать модели, загрузку набора данных и оценку производительности модели.
Обратная техника: мы внедрили несколько быстрых технических методов. Например: несколько выстрелов в цепочке мыслей [1], Emotion romplect [2], экспертный подсказка [3] и так далее.
Оценка состязательных подсказок: интегрированные оперативные атаки Quickbench [4], что позволяет исследователям моделировать атаки состязания черного ящика на моделях и оценивать их надежность (см. Подробности здесь).
Динамическая оценка для смягчения потенциального загрязнения данных тестовых данных: мы интегрировали динамическую структуру оценки Dyval [5], которая генерирует образцы оценки на лету с контролируемой сложности.
Эффективная многопрофона оценка : мы интегрировали эффективный метод оценки с несколькими проплыками PROMPTEVAL [8]. Этот метод использует производительность LLMS на небольшом количестве данных для создания IRT-подобной модели. Эта модель затем используется для прогнозирования производительности LLM на невидимых данных. Тесты на MMLU, BBH и Lmentry показывают, что этот метод требует отбора проб только 5% данных, чтобы уменьшить ошибку между предполагаемой и фактической производительностью примерно до 2%.

Установка

Установите через `pip`

Мы предоставляем Python Package Quickbench для пользователей, которые хотят быстро начать оценку. Просто беги:

pip install promptbench

Обратите внимание, что установка PIP может быть за недавними обновлениями. Таким образом, если вы хотите использовать последние функции или разработать на основе нашего кода, вы должны установить через GitHub.

Установите через GitHub

Во -первых, клонировать репо:

git clone [email protected]:microsoft/promptbench.git

Затем,

 cd promptbench

Чтобы установить необходимые пакеты, вы можете создать среду Conda:

conda create --name promptbench python=3.9
conda activate promptbench

Затем используйте PIP, чтобы установить необходимые пакеты:

pip install -r requirements.txt

Обратите внимание, что это только установили базовые пакеты Python. Для быстрой атаки вам также нужно будет установить TextAttack.

Использование

rackbench легко использовать и расширять. Просмотр приведенных ниже примеров поможет вам познакомиться с Quickbench для быстрого использования, оценки существующих наборов данных и LLMS или создать свои собственные наборы данных и модели.

Пожалуйста, смотрите установку для установки racksbench в первую очередь.

Если QuickBench установлен через pip , вы можете просто сделать:

 import promptbench as pb

Если вы установили rackbench из git и хотите использовать его в других проектах:

 import sys

# Add the directory of promptbench to the Python path
sys . path . append ( '/home/xxx/promptbench' )

# Now you can import promptbench by name
import promptbench as pb

Мы предоставляем учебники для:

Оцените модели по существующим критериям: пожалуйста, обратитесь к примерам/basic.ipynb для построения вашего оценочного конвейера. Для многомодальной оценки, пожалуйста, обратитесь к примерам/Multimodal.ipynb
Проверьте эффекты различных методов подсказования:
Изучите надежность для быстрой атаки , пожалуйста, обратитесь к примерам/QUINDER_ATTACK.IPYNB, чтобы построить атаки.
Используйте Dyval для оценки: пожалуйста, обратитесь к примерам/dyval.ipynb, чтобы построить наборы данных Dyval.
Эффективная многопрофессиональная оценка с использованием PrompTeval : пожалуйста, см.

Реализованные компоненты

В настоящее время rackbench поддерживает различные наборы данных, модели, методы быстрого инженера, состязательные атаки и многое другое. Вы можете добавить больше.

Наборы данных

Языковые наборы данных:
- Клей: SST-2, Cola, QQP, MRPC, MNLI, QNLI, RTE, WNLI
- MMLU
- Большой распах (логика Bool, действительные скобки, дата ...)
- Математика
- GSM8K
- Отряд V2
- IWSLT 2017
- ООН мульти
- CSQA (QA Commonsense)
- Numersense
- QASC
- Последнее письмо объединяется
Многомодальные наборы данных:
- VQAV2
- Nocaps
- МММУ
- Mathvista
- Ai2d
- Chartqa
- Scienceqa

Модели

Языковые модели:

Модели с открытым исходным кодом:
- Google/Flan-T5-Large
- DataBricks/Dolly-V1-6B
- Llama2 серия
- Vicuna-13b, Vicuna-13b-V1.3
- Cerebras/Cerebras-GPT-13b
- Eleutherai/GPT-neox-20b
- Google/Flan-ul2
- PHI-1.5 и PHI-2
Собственные модели
- Пальма 2
- GPT-3.5
- GPT-4
- Gemini Pro

Многомодальные модели:

Модели с открытым исходным кодом:
- BLIP2
- Ллава
- QWEN-VL, QWEN-VL-Chat
- Internlm-xcomposer2-Vl
Собственные модели
- GPT-4V
- Gemini Pro Vision
- QWEN-VL-MAX, QWEN-VL-PLUS

Оперативная инженерия

Цепочка мыслей (кроватка) [1]
EmotionPrompt [2]
Эксперт подсказка [3]
Zero-Shot heack of Yout
Сгенерированные знания [6]
Наименьшее для большинства [7]

Состязательные атаки

Атака на уровне персонажа
- DeepWordBug
- TextBugger
Атака на уровне слов
- Textfooler
- Бертатак
Атака на уровне предложения
- Контрольный список
- Стресс -тест
Атака семантического уровня
- Атака с человеком

Протоколы и анализ

Стандартная оценка
Динамическая оценка
Семантическая оценка
Контрольные результаты
Анализ визуализации
Анализ передачи
Анализ частоты слов

Контрольные результаты

Пожалуйста, обратитесь к нашему эталонному веб -сайту для результатов эталона по приглашению на быстрые атаки, быстрое инженерное и динамическое оценку Dyval.

Благодарности

TextAttack
Шаблон чтения
Мы благодарим добровольцев: Ханьюан Чжан, Лингруи Ли, Yating Zhou за проведение эксперимента с семантической консервированием в краткосрочной атаке.

Ссылка

[1] Jason Wei, et al. «Подача в цепочке мыслей вызывает рассуждения в крупных языковых моделях». Arxiv Preprint arxiv: 2201.11903 (2022).

[2] Cheng Li, et al. «EmotionPrompt: использует психологию для улучшения больших языковых моделей с помощью эмоционального стимула». Arxiv Preprint arxiv: 2307.11760 (2023).

[3] Benfeng Xu, et al. «Expert Propming: инструктирование моделей крупных языков, чтобы быть различными экспертами» Arxiv Preprint Arxiv: 2305.14688 (2023).

[4] Zhu, Kaijie, et al. «Щетка: к оценке надежности крупных языковых моделей на подсказках состязания». Arxiv Preprint arxiv: 2306.04528 (2023).

[5] Zhu, Kaijie, et al. «Dyval: График-информированная динамическая оценка крупных языковых моделей». Arxiv Preprint arxiv: 2309.17167 (2023).

[6] Лю Дж., Лю А., Лу Х и др. Сгенерированные знания, подсказывающие обоснование рассуждений [J]. Arxiv Preprint arxiv: 2110.08387, 2021.

[7] Zhou D, Schärli N, Hou L, et al. Наименьшее количество подсказок позволяет сложные рассуждения в крупных языковых моделях [J]. Arxiv Preprint arxiv: 2205.10625, 2022.

[8] Felipe Maia Polo, et al. «Prompteval: эффективная многопрофлясная оценка языковых моделей». Arxiv Preprint arxiv: 2405.17202.

Ссылаясь

Пожалуйста, цитируйте нас, если вы найдете этот проект полезным для вашего проекта/бумаги:

 @article{zhu2023promptbench2,
  title={PromptBench: A Unified Library for Evaluation of Large Language Models},
  author={Zhu, Kaijie and Zhao, Qinlin and Chen, Hao and Wang, Jindong and Xie, Xing},
  journal={arXiv preprint arXiv:2312.07910},
  year={2023}
}

@article{zhu2023promptbench,
  title={PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts},
  author={Zhu, Kaijie and Wang, Jindong and Zhou, Jiaheng and Wang, Zichen and Chen, Hao and Wang, Yidong and Yang, Linyi and Ye, Wei and Gong, Neil Zhenqiang and Zhang, Yue and others},
  journal={arXiv preprint arXiv:2306.04528},
  year={2023}
}

@article{zhu2023dyval,
  title={DyVal: Graph-informed Dynamic Evaluation of Large Language Models},
  author={Zhu, Kaijie and Chen, Jiaao and Wang, Jindong and Gong, Neil Zhenqiang and Yang, Diyi and Xie, Xing},
  journal={arXiv preprint arXiv:2309.17167},
  year={2023}
}

@article{chang2023survey,
  title={A survey on evaluation of large language models},
  author={Chang, Yupeng and Wang, Xu and Wang, Jindong and Wu, Yuan and Zhu, Kaijie and Chen, Hao and Yang, Linyi and Yi, Xiaoyuan and Wang, Cunxiang and Wang, Yidong and others},
  journal={arXiv preprint arXiv:2307.03109},
  year={2023}
}

Внося

Этот проект приветствует вклады и предложения. Большинство взносов требуют, чтобы вы согласились с лицензионным соглашением о участнике (CLA), заявив, что вы имеете право и фактически предоставить нам права на использование вашего вклада. Для получения подробной информации, посетите https://cla.opensource.microsoft.com.

Когда вы отправляете запрос на привлечение, бот CLA автоматически определит, нужно ли вам предоставить CLA и правильно украсить PR (например, проверка состояния, комментарий). Просто следуйте инструкциям, предоставленным ботом. Вам нужно будет сделать это только один раз во всех репо, используя наш CLA.

Этот проект принял код поведения с открытым исходным кодом Microsoft. Для получения дополнительной информации см. Кодекс поведения FAQ или свяжитесь с [email protected] с любыми дополнительными вопросами или комментариями.

Если у вас есть предложение, которое сделает Quickbench лучше, пожалуйста, разделите репо и создайте запрос на притяжение. Вы также можете просто открыть проблему с тегом «Улучшение». Не забудьте дать проекту звезду! Еще раз спасибо!

Форк проект
Создайте свою филиал ( git checkout -b your_name/your_branch )
Совершить свои изменения ( git commit -m 'Add some features' )
Толкайте ветвь ( git push origin your_name/your_branch )
Откройте запрос на тягу

Товарные знаки

Этот проект может содержать товарные знаки или логотипы для проектов, продуктов или услуг. Уполномоченное использование товарных знаков или логотипов Microsoft подлежит и должно следовать указаниям Microsoft по товарной марке и брендам. Использование товарных знаков Microsoft или логотипов в модифицированных версиях этого проекта не должно вызывать путаницу или подразумевать спонсорство Microsoft. Любое использование сторонних товарных знаков или логотипов подвержена политике сторонних сторон.

Расширять

Дополнительная информация

Версия 1.0.0
Тип AI Исходный код
Время обновления 2025-07-01
размер 1.23MB
От Github

Связанные приложения

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
promptl

2025-02-17
pywin_contextmenu

2025-08-31
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

promptbench

Новости и обновления

Введение

Что в настоящее время предоставляет rackbench?

Установка

Установите через `pip`

Установите через GitHub

Использование

Реализованные компоненты

Наборы данных

Модели

Оперативная инженерия

Состязательные атаки

Протоколы и анализ

Контрольные результаты

Благодарности

Ссылка

Ссылаясь

Внося

Товарные знаки

ML stack

awesome free chatgpt

promptl

pywin_contextmenu

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

promptl

Google Dorks

shepherd

hidusbf

promptbench

Новости и обновления

Введение

Что в настоящее время предоставляет rackbench?

Установка

Установите через pip

Установите через GitHub

Использование

Реализованные компоненты

Наборы данных

Модели

Оперативная инженерия

Состязательные атаки

Протоколы и анализ

Контрольные результаты

Благодарности

Ссылка

Ссылаясь

Внося

Товарные знаки

Установите через `pip`