Скачать bocoel - Скачать исходный код bocoel

bocoel

AI Исходный код

1.0.0

Скачать

☂ Бокоэль

Байесовская оптимизация как инструмент покрытия для оценки крупных языковых моделей

? Почему Бокоэль?

Большие языковые модели являются дорогими и медленными бегемотами, а оценка их на гигантских современных наборах данных только усугубляет.

Если бы только есть способ просто выбрать значимую ( и маленькую ) подмножество корпуса и получить высокую точную оценку .....

Подождите, звучит как байесовская оптимизация!

Бокоэль работает на следующих шагах:

Кодируйте индивидуальное вход в встраивания (намного дешевле / быстрее, чем LLM и многоразовый).
Используйте байесовскую оптимизацию, чтобы выбрать запросы для оценки.
Используйте запросы, чтобы извлечь из нашего корпуса (с закодированными встроками).
Выгода.

Сгенеративные оценки легко управляются предоставленной утилитой менеджера.

Насколько нам известно, это первая работа, направленная на снижение затрат на вычисление во время оценки (сравнительный анализ) с (возможно, динамическим) бюджетом.

Функции

Точно оцените большие языковые модели с десятками образцов из выбранного вашего корпуса.
? ‍ ‍tice использует силу байесовской оптимизации, чтобы выбрать оптимальное подмножество образцов для оценки языковой модели.
? Оцените корпус на модели в дополнение к оценке модели на корпусе.
? Поддержка GPT2 , Pythia , LLAMA и многое другое посредством интеграции с трансформаторами Huggingface и наборами данных
? Модульный дизайн.
? Эффективное представление корпуса / набора данных, такого как представление N-сферы или отбеливание скрытого пространства для увеличения качества оценки.

Дай нам звезду!

Как то, что вы видите? Пожалуйста, подумайте о том, чтобы дать это звездой (★)!

♾ Байесовская оптимизация

Проще говоря, байесовская оптимизация направлена на оптимизацию либо объектива исследования (фиолетовая область на изображении), либо объект эксплуатации (высота черных точек). Он использует гауссовые процессы в качестве основы для вывода и использует функцию сбора , чтобы решить, где попробовать дальше. Смотрите здесь для более глубокого введения.

Поскольку байесовская оптимизация хорошо работает с моделью черного ящика для дорогих и оценить (Parphrase: LLM) , она идеально подходит для этого конкретного варианта использования. Bocoel использует байесовскую оптимизацию в качестве основы для изучения пространства встраивания, данного нашим корпусом, что позволяет ему выбрать хорошее подмножество, действующее в качестве мини -снимка корпуса.

? ️ последствия для производительности

LLMs мучительно медленные, особенно генеративные (что обычно называют LLM), поскольку генерация последовательности является последовательной по природе.

Несмотря на требование bocoel использовать Entgedder для кодирования всего корпуса, встраиватели быстрее, чем LLMS на порядки, и время получено практически любыми сбережениями при оценке LLMS.

Установка

Я не хочу дополнительных зависимостей:

 pip install bocoel

Дайте мне полный опыт (все необязательные зависимости):

 pip install "bocoel[all]"

? Использование

Смотрите примеры папки/get get_started для упрощенного использования библиотеки, чтобы начать с нескольких строк кода.

✍ развиваться с Bocoel

Примеры использования находятся под examples папки. Ссылка на API можно найти здесь.

? Внося

Администраторы хотели! Не стесняйся. Не стесняйтесь подавать проблемы и PRS. Для PRS, пожалуйста, следуйте руководству по внесению и кодексу поведения. Открытость и инклюзивность относятся очень серьезно.

? ️ дорожная карта: работа в процессе

? Более простое использование. Я должен предоставить обертку высокого уровня для всей библиотеки ST, которые можно запустить в одной линии.
Модуль визуализации оценки.
? Интеграция альтернативных методов (случайные, kmedoids ...) с гауссовым процессом.
? Интеграция с большим количеством бэкэндов, такими как VLLM и API Openai.
? Поддержка Python 3.12+

? ️ Лицензия и цитата

Код доступен по лицензии BSD-3.

Если вы найдете этот проект полезным в своем исследовании, пожалуйста, укажите эту работу в

 @misc{bocoel2024,
    title = {BoCoEL: Bayesian Optimization as a Coverage Tool for Evaluating Large Language Models},
    url = {https://bocoel.rentruewang.com/research/},
    author = {Wang, RenChu},
    month = {January},
    year = {2024}
}

Расширять

Дополнительная информация