bigcodebench下載 - bigcodebench源代碼下載

bigcodebench

其他源碼

v0.2.1.post2

下載

BigCodeBench

？影響 • ？新聞•快速啟動•遠程評估•LLM生成的代碼•？高級用法•？結果提交•引用

？影響

BigCodeBench已被許多LLM團隊使用，包括：

Zhipu ai
阿里巴巴Qwen
DeepSeek
亞馬遜AWS AI
雪花AI研究
ServiceNow研究
meta ai
cohere ai
Sakana ai

？消息

[2024-10-06]我們正在釋放bigcodebench==v0.2.0 ！
[2024-10-05]我們在擁抱面積空間上創建公共代碼執行API。
[2024-10-01]到目前為止，我們已經在BigCodebench-Hard上評估了139個模型。看看排行榜！
[2024-08-19]為了使評估完全可複制，我們在排行榜中添加了實時代碼執行會話。可以在這裡查看。
[2024-08-02]我們發布bigcodebench==v0.1.9 。

更多新聞::單擊以展開::

[2024-07-18]我們宣布BigCodeBench-Hard的BigCodeBench的一個子集，其中包含148個任務，這些任務與現實世界編程任務更加一致。詳細信息可在此博客文章中找到。該數據集可在此處提供。新版本是bigcodebench==v0.1.8 。
[2024-06-28]我們發布bigcodebench==v0.1.7 。
[2024-06-27]我們發布bigcodebench==v0.1.6 。
[2024-06-19]我們開始擁抱臉bigcodebench排行榜！排行榜可在此處提供。
[2024-06-18]我們發布了BigCodeBench，這是一種新的基準，用於代碼生成，具有1140個面向軟件工程的編程任務。預印本可在此處使用。 PYPI軟件包可在此處提供0.1.5版本。

？關於

BigCodeBench

BigCodeBench是通過代碼解決實用和具有挑戰性的任務的易於使用的基準。它旨在在更現實的環境中評估大語言模型（LLM）的真正編程功能。該基準是為類似HOMANEVAL的功能級代碼生成任務而設計的，但具有更複雜的說明和不同的功能調用。

BigCodebench中有兩個分裂：

Complete ：THES Split設計用於基於綜合docstrings的代碼完成。
Instruct ：拆分僅適用於指令調整和聊天模型，在此要求模型根據自然語言說明生成代碼段。該說明僅包含必要的信息，需要更複雜的推理。

為什麼要bigcodebench？

BigCodeBench專注於通過代碼生成具有不同功能呼叫和複雜說明的代碼自動化，其中：

精確的評估和排名：有關嚴格評估之前和之後的最新LLM排名，請參見我們的排行榜。
預先生成的樣本：BigCodebench通過開放式LLM生成的樣品為各種型號加速了代碼情報研究 - 無需重新運行昂貴的基準測試！

快速開始

首先，請首先設置環境：

 # By default, you will use the remote evaluation API to execute the output samples.
pip install bigcodebench --upgrade

# You are suggested to use `flash-attn` for generating code samples.
pip install packaging ninja
pip install flash-attn --no-build-isolation
# Note: if you have installation problem, consider using pre-built
# wheels from https://github.com/Dao-AILab/flash-attention/releases

⏬安裝夜間版本::單擊以展開::

 # Install to use bigcodebench.generate
pip install " git+https://github.com/bigcode-project/bigcodebench.git " --upgrade

遠程評估

我們使用貪婪的解碼來顯示如何通過遠程API評估生成的代碼樣本。

警告

為了簡化生成，我們默認使用批處理推斷。但是，至少對於VLLM後端而言，批處理推理結果可能從批處理大小到批處理大小以及版本到版本之間有所不同。如果您想獲得更多的貪婪解碼結果，請將--bs設置為1 。

筆記

在BigCodeBench-Full遠程執行通常需要6-7分鐘，而在BigCodeBench-Hard上通常需要4-5分鐘。

bigcodebench.evaluate 
  --model meta-llama/Meta-Llama-3.1-8B-Instruct 
  --split [complete | instruct] 
  --subset [full | hard] 
  --backend [vllm | openai | anthropic | google | mistral | hf]

所有結果文件將存儲在名為bcb_results的文件夾中。
生成的代碼樣本將存儲在名為[model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonl 。
評估結果將存儲在名為[model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.json 。
通過@k結果將存儲在名為[model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_pass_at_k.json 。

筆記

BigCodeBench對基礎和聊天模型使用不同的提示。默認情況下，使用hf / vllm作為後端時，由tokenizer.chat_template檢測到它。對於其他後端，僅允許聊天模式。

因此，如果您的基本模型帶有tokenizer.chat_template ，請添加--direct_completion ，以避免在聊天模式下評估。

訪問OpenAI控制台的OpenAI API

 export OPENAI_API_KEY= < your_openai_api_key >

從擬人控制台訪問擬人API

 export ANTHROPIC_API_KEY= < your_anthropic_api_key >

從Mistral控制台訪問Mistral API

 export MISTRAL_API_KEY= < your_mistral_api_key >

訪問Google AI Studio的GEMINI API

 export GOOGLE_API_KEY= < your_google_api_key >

LLM生成的代碼

我們共享我們評估過的LLM的預生產代碼樣本：

請參閱我們的v0.2.0.post3的附件。為了您的方便，我們包括sanitized_samples_calibrated.zip 。

？高級用法

有關更多詳細信息，請參考高級用法。

？結果提交

如果您想將模型貢獻給排行榜，請通過電子郵件將生成的代碼示例和執行結果發送給[email protected]。請注意，該文件名的格式應為[model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonl [model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.json 。如果我們在3天內不回复您的電子郵件，您可以提出問題以提醒我們。

引用

 @article { zhuo2024bigcodebench ,
  title = { BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions } ,
  author = { Zhuo, Terry Yue and Vu, Minh Chien and Chim, Jenny and Hu, Han and Yu, Wenhao and Widyasari, Ratnadira and Yusuf, Imam Nur Bani and Zhan, Haolan and He, Junda and Paul, Indraneil and others } ,
  journal = { arXiv preprint arXiv:2406.15877 } ,
  year = { 2024 }
}

致謝

評估Plus

展開

附加信息

版本 v0.2.1.post2
類型其他源碼
更新時間 2025-03-04
大小 86.95KB
來自於 Github

相關應用

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部