Скачать bigcodebench - Скачать исходный код bigcodebench

bigcodebench

Другой исходный код

v0.2.1.post2

Скачать

BigCodebench

? Влияние • ? Новости • Быстрый запуск • Удаленная оценка • Код сгенерированного LLM •? Расширенное использование •? Представление результатов • цитирование

? Влияние

BigCodebench использовался многими командами LLM, включая:

ZHIPU AI
Алибаба Квен
DeepSeek
Amazon AWS AI
Snowflake AI Research
ServiceNow Research
Meta ai
Cohere ai
Сакана Ай

? Новости

[2024-10-06] Мы выпускаем bigcodebench==v0.2.0 !
[2024-10-05] Мы создаем общедоступный API выполнения кода на пространстве объятия.
[2024-10-01] Пока мы оценили 139 моделей на BigCodebench-Hard. Взгляните на таблицу лидеров!
[2024-08-19] Чтобы сделать оценку полностью воспроизводимой, мы добавляем сеанс выполнения кода в реальном времени в таблицу лидеров. Это можно просмотреть здесь.
[2024-08-02] Мы выпускаем bigcodebench==v0.1.9 .

Больше новостей :: Нажмите, чтобы расширить ::

[2024-07-18] Мы объявляем подмножество BigCodebench, BigCodebench-Hard, которая включает в себя 148 задач, которые более выровнены с реальными задачами по программированию. Детали доступны в этом сообщении в блоге. Набор данных доступен здесь. Новый релиз bigcodebench==v0.1.8 .
[2024-06-28] Мы выпускаем bigcodebench==v0.1.7 .
[2024-06-27] Мы выпускаем bigcodebench==v0.1.6 .
[2024-06-19] Мы начинаем обнимать лидеры BigCodebench! Таблица лидеров доступна здесь.
[2024-06-18] Мы выпускаем BigCodebench, нового эталона для генерации кода с 1140-ориентированными программными задачами программного обеспечения. Препринт доступен здесь. Пакет PYPI доступен здесь с версией 0.1.5 .

? О

BigCodebench

BigCodeBench-это простые в использовании эталон для решения практических и сложных задач с помощью кода. Он направлен на оценку истинных возможностей программирования крупных языковых моделей (LLMS) в более реалистичных условиях. Трингум предназначен для задач генерации кода функционального уровня, но с гораздо более сложными инструкциями и различными вызовами функций.

В BigCodebench есть два раскола:

Complete : The Split разработан для завершения кода на основе комплексных Docstrings.
Instruct : разделение работает только для моделей, настроенных на инструкции и чата, где модели просят создать фрагмент кода на основе инструкций естественного языка. Инструкции содержат только необходимую информацию и требуют более сложных рассуждений.

Почему BigCodebench?

BigCodeBench фокусируется на автоматизации задач с помощью генерации кода с различными вызовами функций и сложными инструкциями , с:

Точная оценка и рейтинг : см. Наше таблицу лидеров для последних рейтингов LLM до и после строгой оценки.
Предварительно сгенерированные образцы : BigCodeBench ускоряет исследование интеллекта кода с помощью образцов с открытым исходным кодом LLM для различных моделей-нет необходимости повторно запустить дорогие тесты!

Быстрый старт

Чтобы начать, пожалуйста, сначала настройте среду:

 # By default, you will use the remote evaluation API to execute the output samples.
pip install bigcodebench --upgrade

# You are suggested to use `flash-attn` for generating code samples.
pip install packaging ninja
pip install flash-attn --no-build-isolation
# Note: if you have installation problem, consider using pre-built
# wheels from https://github.com/Dao-AILab/flash-attention/releases

⏬ Установите ночную версию :: Нажмите, чтобы расширить ::

 # Install to use bigcodebench.generate
pip install " git+https://github.com/bigcode-project/bigcodebench.git " --upgrade

Отдаленная оценка

Мы используем жадное декодирование в качестве примера, чтобы показать, как оценить сгенерированные образцы кода с помощью удаленного API.

Предупреждение

Чтобы облегчить поколение, мы используем пакетный вывод по умолчанию. Тем не менее, результаты пакетного вывода могут варьироваться от размеров партий до размеров партий и версий до версий , по крайней мере, для бэкэнда VLLM. Если вы хотите получить более детерминированные результаты для жадного декодирования, пожалуйста, установите --bs на 1 .

Примечание

Удаленное выполнение на BigCodeBench-Full обычно занимает 6-7 минут, а на BigCodeBench-Hard обычно занимает 4-5 минут.

bigcodebench.evaluate 
  --model meta-llama/Meta-Llama-3.1-8B-Instruct 
  --split [complete | instruct] 
  --subset [full | hard] 
  --backend [vllm | openai | anthropic | google | mistral | hf]

Все полученные файлы будут храниться в папке с именем bcb_results .
Сгенерированные образцы кода будут храниться в файле с именем [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonl .
Результаты оценки будут сохранены в файле с именем [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.json .
Результаты Pass@K будут храниться в файле с именем [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_pass_at_k.json .

Примечание

BigCodeBench использует разные подсказки для базовых и чат -моделей. По умолчанию он обнаруживается tokenizer.chat_template при использовании hf / vllm в качестве бэкэнда. Для других бэкэндов разрешен только режим чата.

Поэтому, если ваши базовые модели поставляются с tokenizer.chat_template , пожалуйста, добавьте --direct_completion , чтобы избежать оцениваемой в режиме чата.

Access Openai API -файлы из консоли Openai

 export OPENAI_API_KEY= < your_openai_api_key >

Доступ к антропическим API -интерфейсам из антропной консоли

 export ANTHROPIC_API_KEY= < your_anthropic_api_key >

Доступ к APIS Mistral из консоли Mistral

 export MISTRAL_API_KEY= < your_mistral_api_key >

Доступ к APIS Gemini из Google AI Studio

 export GOOGLE_API_KEY= < your_google_api_key >

Код, сгенерированный LLM

Мы делимся предварительно генерируемыми образцами кода из LLMS, которые мы оценили:

См. Приложение нашего V0.2.0.post3. Мы включаем sanitized_samples_calibrated.zip для вашего удобства.

? Расширенное использование

Пожалуйста, обратитесь к расширенному использованию для более подробной информации.

? Результат подчинения

Пожалуйста, напишите как сгенерированные образцы кода, так и результаты выполнения на [email protected], если вы хотите внести свой вклад в свою модель в таблицу лидеров. Обратите внимание, что имена файлов должны находиться в формате [model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonl и и [model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.json . Вы можете подать проблему, чтобы напомнить нам, если мы не ответим на ваше электронное письмо в течение 3 дней.

Цитирование

 @article { zhuo2024bigcodebench ,
  title = { BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions } ,
  author = { Zhuo, Terry Yue and Vu, Minh Chien and Chim, Jenny and Hu, Han and Yu, Wenhao and Widyasari, Ratnadira and Yusuf, Imam Nur Bani and Zhan, Haolan and He, Junda and Paul, Indraneil and others } ,
  journal = { arXiv preprint arXiv:2406.15877 } ,
  year = { 2024 }
}

Подтверждение

Evalplus

Расширять

Дополнительная информация

Версия v0.2.1.post2
Тип Другой исходный код
Время обновления 2025-03-04
размер 86.95KB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

bigcodebench

BigCodebench

? Влияние

? Новости

? О

BigCodebench

Почему BigCodebench?

Быстрый старт

Отдаленная оценка

Код, сгенерированный LLM

? Расширенное использование

? Результат подчинения

Цитирование

Подтверждение

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express