
? Влияние • ? Новости • Быстрый запуск • Удаленная оценка • Код сгенерированного LLM •? Расширенное использование •? Представление результатов • цитирование
BigCodebench использовался многими командами LLM, включая:
bigcodebench==v0.2.0 !bigcodebench==v0.1.9 .bigcodebench==v0.1.8 .bigcodebench==v0.1.7 .bigcodebench==v0.1.6 .0.1.5 . BigCodeBench-это простые в использовании эталон для решения практических и сложных задач с помощью кода. Он направлен на оценку истинных возможностей программирования крупных языковых моделей (LLMS) в более реалистичных условиях. Трингум предназначен для задач генерации кода функционального уровня, но с гораздо более сложными инструкциями и различными вызовами функций.
В BigCodebench есть два раскола:
Complete : The Split разработан для завершения кода на основе комплексных Docstrings.Instruct : разделение работает только для моделей, настроенных на инструкции и чата, где модели просят создать фрагмент кода на основе инструкций естественного языка. Инструкции содержат только необходимую информацию и требуют более сложных рассуждений.BigCodeBench фокусируется на автоматизации задач с помощью генерации кода с различными вызовами функций и сложными инструкциями , с:
Чтобы начать, пожалуйста, сначала настройте среду:
# By default, you will use the remote evaluation API to execute the output samples.
pip install bigcodebench --upgrade
# You are suggested to use `flash-attn` for generating code samples.
pip install packaging ninja
pip install flash-attn --no-build-isolation
# Note: if you have installation problem, consider using pre-built
# wheels from https://github.com/Dao-AILab/flash-attention/releases # Install to use bigcodebench.generate
pip install " git+https://github.com/bigcode-project/bigcodebench.git " --upgradeМы используем жадное декодирование в качестве примера, чтобы показать, как оценить сгенерированные образцы кода с помощью удаленного API.
Предупреждение
Чтобы облегчить поколение, мы используем пакетный вывод по умолчанию. Тем не менее, результаты пакетного вывода могут варьироваться от размеров партий до размеров партий и версий до версий , по крайней мере, для бэкэнда VLLM. Если вы хотите получить более детерминированные результаты для жадного декодирования, пожалуйста, установите --bs на 1 .
Примечание
Удаленное выполнение на BigCodeBench-Full обычно занимает 6-7 минут, а на BigCodeBench-Hard обычно занимает 4-5 минут.
bigcodebench.evaluate
--model meta-llama/Meta-Llama-3.1-8B-Instruct
--split [complete | instruct]
--subset [full | hard]
--backend [vllm | openai | anthropic | google | mistral | hf]bcb_results .[model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonl .[model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.json .[model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_pass_at_k.json . Примечание
BigCodeBench использует разные подсказки для базовых и чат -моделей. По умолчанию он обнаруживается tokenizer.chat_template при использовании hf / vllm в качестве бэкэнда. Для других бэкэндов разрешен только режим чата.
Поэтому, если ваши базовые модели поставляются с tokenizer.chat_template , пожалуйста, добавьте --direct_completion , чтобы избежать оцениваемой в режиме чата.
Access Openai API -файлы из консоли Openai
export OPENAI_API_KEY= < your_openai_api_key >Доступ к антропическим API -интерфейсам из антропной консоли
export ANTHROPIC_API_KEY= < your_anthropic_api_key >Доступ к APIS Mistral из консоли Mistral
export MISTRAL_API_KEY= < your_mistral_api_key >Доступ к APIS Gemini из Google AI Studio
export GOOGLE_API_KEY= < your_google_api_key > Мы делимся предварительно генерируемыми образцами кода из LLMS, которые мы оценили:
sanitized_samples_calibrated.zip для вашего удобства. Пожалуйста, обратитесь к расширенному использованию для более подробной информации.
Пожалуйста, напишите как сгенерированные образцы кода, так и результаты выполнения на [email protected], если вы хотите внести свой вклад в свою модель в таблицу лидеров. Обратите внимание, что имена файлов должны находиться в формате [model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonl и и [model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.json . Вы можете подать проблему, чтобы напомнить нам, если мы не ответим на ваше электронное письмо в течение 3 дней.
@article { zhuo2024bigcodebench ,
title = { BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions } ,
author = { Zhuo, Terry Yue and Vu, Minh Chien and Chim, Jenny and Hu, Han and Yu, Wenhao and Widyasari, Ratnadira and Yusuf, Imam Nur Bani and Zhan, Haolan and He, Junda and Paul, Indraneil and others } ,
journal = { arXiv preprint arXiv:2406.15877 } ,
year = { 2024 }
}