bigcodebenchダウンロードbigcodebenchソースコードのダウンロード

bigcodebench

その他のソースコード

v0.2.1.post2

ダウンロード

BigCodeBench

？インパクト • ？ニュース•クイックスタート•リモート評価•LLM生成コード•？高度な使用法•？結果の提出•引用

？インパクト

BigCodeBenchは、以下を含む多くのLLMチームで使用されています。

Zhipu ai
Alibaba Qwen
deepseek
Amazon AWS AI
スノーフレークAI研究
ServiceNow研究
メタAI
COHEERLY AI
サカナアイ

？ニュース

[2024-10-06] bigcodebench==v0.2.0をリリースしています！
[2024-10-05]抱きしめるフェイススペースにパブリックコード実行APIを作成します。
[2024-10-01]これまでのところ、BigCodebenchハードで139のモデルを評価しました。リーダーボードを見てください！
[2024-08-19]評価を完全に再現可能にするために、リーダーボードにリアルタイムコード実行セッションを追加します。ここで見ることができます。
[2024-08-02] bigcodebench==v0.1.9をリリースします。

その他のニュース::クリックして展開::

[2024-07-18] BigCodebenchのサブセットであるBigCodebench Hardを発表します。これには、実際のプログラミングタスクに沿った148のタスクが含まれています。詳細はこのブログ投稿で入手できます。データセットはこちらから入手できます。新しいリリースはbigcodebench==v0.1.8です。
[2024-06-28] bigcodebench==v0.1.7をリリースします。
[2024-06-27] bigcodebench==v0.1.6をリリースします。
[2024-06-19]抱きしめているFace BigCodebenchリーダーボードを開始します！リーダーボードはこちらから入手できます。
[2024-06-18] 1140のソフトウェアエンジニアリング指向のプログラミングタスクを備えたコード生成の新しいベンチマークであるBigCodeBenchをリリースします。プリプリントはこちらから入手できます。 Pypiパッケージは、バージョン0.1.5でここで入手できます。

？について

BigCodeBench

BigCodeBenchは、コードを介して実用的で挑戦的なタスクを解決するための使いやすいベンチマークです。より現実的な設定で、大規模な言語モデル（LLMS）の真のプログラミング機能を評価することを目的としています。ベンチマークは、人間のような関数レベルのコード生成タスク向けに設計されていますが、はるかに複雑な命令と多様な関数呼び出しがあります。

BigCodebenchには2つのスプリットがあります。

Complete ：THES Splitは、包括的なドキュストリングに基づいてコード完了のために設計されています。
Instruct ：スプリットは、命令チューニングモデルとチャットモデルのみで機能します。モデルは、自然言語の指示に基づいてコードスニペットを生成するように求められます。指示には必要な情報のみが含まれており、より複雑な推論が必要です。

なぜBigCodeBench？

BigCodeBenchは、多様な関数呼び出しと複雑な指示を使用して、コード生成を介してタスクの自動化に焦点を当てています。

正確な評価とランキング：厳密な評価の前後に最新のLLMランキングについては、リーダーボードを参照してください。
事前に生成されたサンプル：BigCodeBenchは、さまざまなモデルのLLM生成サンプルをオープンソーシングすることにより、コードインテリジェンスの研究を加速します。高価なベンチマークを再実行する必要はありません。

クイックスタート

開始するには、最初に環境をセットアップしてください。

 # By default, you will use the remote evaluation API to execute the output samples.
pip install bigcodebench --upgrade

# You are suggested to use `flash-attn` for generating code samples.
pip install packaging ninja
pip install flash-attn --no-build-isolation
# Note: if you have installation problem, consider using pre-built
# wheels from https://github.com/Dao-AILab/flash-attention/releases

⏬毎晩バージョン::クリックして展開する::インストール

 # Install to use bigcodebench.generate
pip install " git+https://github.com/bigcode-project/bigcodebench.git " --upgrade

リモート評価

貪欲なデコードを例として使用して、リモートAPIを介して生成されたコードサンプルを評価する方法を示します。

警告

生成を容易にするために、デフォルトでバッチ推論を使用します。ただし、バッチ推論の結果は、少なくともVLLMバックエンドでは、バッチサイズからバッチサイズ、バージョンまでさまざまです。貪欲なデコードのためのより決定的な結果を得たい場合は、 --bsを1に設定してください。

注記

BigCodeBench-Fullでリモートで実行するには、通常6〜7分かかり、 BigCodeBench-Hardでは通常4〜5分かかります。

bigcodebench.evaluate 
  --model meta-llama/Meta-Llama-3.1-8B-Instruct 
  --split [complete | instruct] 
  --subset [full | hard] 
  --backend [vllm | openai | anthropic | google | mistral | hf]

結果のすべてのファイルは、 bcb_resultsという名前のフォルダーに保存されます。
生成されたコードサンプルは[model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonlという名前のファイルに保存されます。
評価結果は[model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.jsonという名前のファイルに保存されます。
Pass@Kの結果は[model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_pass_at_k.jsonという名前のファイルに保存されます。

注記

BigCodeBenchは、ベースモデルとチャットモデルにさまざまなプロンプトを使用します。デフォルトでは、 hf / vllmバックエンドとして使用する場合、 tokenizer.chat_templateによって検出されます。他のバックエンドの場合、チャットモードのみが許可されます。

したがって、ベースモデルにtokenizer.chat_templateが付属している場合は、チャットモードで評価されないように--direct_completionを追加してください。

OpenaiコンソールからOpenai APIにアクセスします

 export OPENAI_API_KEY= < your_openai_api_key >

Anthropic Consoleから人類のAPIにアクセスします

 export ANTHROPIC_API_KEY= < your_anthropic_api_key >

Mistral ConsoleからMistral APIにアクセスします

 export MISTRAL_API_KEY= < your_mistral_api_key >

Google AI StudioからGemini APIにアクセスします

 export GOOGLE_API_KEY= < your_google_api_key >

LLM生成コード

評価したLLMSからの事前に生成されたコードサンプルを共有してください。

v0.2.0.post3の添付ファイルを参照してください。便宜上、 sanitized_samples_calibrated.zipを含めます。

？高度な使用

詳細については、高度な使用法を参照してください。

？結果の提出

生成されたコードサンプルと実行結果の両方を[email protected]にメールで送信してください。ファイル名[model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonlおよび[model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.json 。 3日以内にメールに応答しない場合は、問題を提出して思い出させることができます。

引用

 @article { zhuo2024bigcodebench ,
  title = { BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions } ,
  author = { Zhuo, Terry Yue and Vu, Minh Chien and Chim, Jenny and Hu, Han and Yu, Wenhao and Widyasari, Ratnadira and Yusuf, Imam Nur Bani and Zhan, Haolan and He, Junda and Paul, Indraneil and others } ,
  journal = { arXiv preprint arXiv:2406.15877 } ,
  year = { 2024 }
}

了承

evalplus

拡大する

追加情報

バージョン v0.2.1.post2
タイプその他のソースコード
更新時間 2025-03-04
サイズ 86.95KB
から Github

bigcodebench

BigCodeBench

？インパクト

？ニュース

？について

BigCodeBench

なぜBigCodeBench？

クイックスタート

リモート評価

LLM生成コード

？高度な使用

？結果の提出

引用

了承

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express