evalplus下載 - evalplus源代碼下載

`EvalPlus() =>`

大約•快速啟動•LLM後端•文檔•引文•確認

？消息

誰在使用evalplus數據集？ LLM團隊使用了評估Plus，包括：

Meta Llama 3.1
qwen2.5代碼
Codeqwen 1.5
DeepSeek-Coder V2
qwen2
雪花北極
StarCoder2
魔術師
WizardCoder

下面跟踪EvalPlus的顯著更新：

[2024-10-20 v0.3.1 ] ：evalplus v0.3.1正式發布！亮點： （i）代碼效率通過esteperf進行評估， （ii）一個運行全部運行的命令：一代 +後處理 +評估， （iii）支持更多推理後端，例如Google Gemini＆Anthropic等。
[2024-06-09 PRE v0.3.0 ] ：改進了MBPP+任務的地面真相解決方案（IDS：459，102，559）。感謝evalarena。
[2024-04-17 pre v0.3.0 ] ：通過刪除一些損壞的任務（399-> 378任務），將MBPP+升級到v0.2.0 。〜4pp Pass@1可以提高1個。

較早的新聞::單擊以展開::

（ v0.2.1 ）您可以通過BigCode-evaluation-Harness使用EvalPlus數據集！ HumaneVal+ Oracle修復（32）。
（ v0.2.0 ）MBPP+已發布！ Humaneval合同和輸入修復程序（0/3/9/148/114/1/1/2/99/28/32/35/160）。
（ v0.1.7 ）排行榜發布； Humaneval+合同和輸入修復程序（32/166/126/6）
（ v0.1.6 ）可配置和違約保守的超時設置； Humaneval+合同和地面真相修復（129/148/75/75/53/0/3/9/140）
（ v0.1.5 ）當您有太多樣本時，HumaneVal+ Mini將進行超快速評估！
（ v0.1.1 ）優化用戶體驗：評估速度，PYPI軟件包，Docker等
（ v0.1.0 ）HumaneVal+已發布！

？關於

評估Plus是LLM4Code的嚴格評估框架，其中：

人類事件+ ：比原始人類多80倍的測試！
MBPP+ ：比原始MBPP多35倍！
Evalperf ：評估LLM生成的代碼的效率！
框架：我們的軟件包/圖像/工具可以輕鬆，安全地評估上述基準測試的LLM。

為什麼要評估？

精確評估：有關嚴格評估之前和之後的最新LLM排名，請參見我們的排行榜。
編碼嚴格性：查看分數差異！尤其使用EvalPlus測試之前和之後！降低意味著代碼生成更嚴格；較大的下降意味著生成的代碼往往是脆弱的。
代碼效率：除了正確性之外，我們的evalperf數據集通過績效執行編碼任務和測試輸入來評估LLM生成的代碼的效率。

想知道更多細節嗎？閱讀我們的論文和材料！

評估：Neurips'23紙，幻燈片，海報，排行榜
Evalperf ：Colm'24紙，海報，文檔，排行榜

快速開始

代碼正確性評估：HumaneVal（+）或MBPP（+）

pip install --upgrade " evalplus[vllm] @ git+https://github.com/evalplus/evalplus "
# Or `pip install "evalplus[vllm]" --upgrade` for the latest stable release

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend vllm                         
                  --greedy

docker中的安全代碼執行::單擊以展開::

 # Local generation
evalplus.codegen --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                 --dataset humaneval                    
                 --backend vllm                         
                 --greedy

# Code execution within Docker
docker run --rm --pull=always -v $( pwd ) /evalplus_results:/app ganler/evalplus:latest 
           evalplus.evaluate --dataset humaneval                                     
           --samples /app/humaneval/ise-uiuc--Magicoder-S-DS-6.7B_vllm_temp_0.0.jsonl

代碼效率評估：Evalperf（僅*NIX）

pip install --upgrade " evalplus[perf,vllm] @ git+https://github.com/evalplus/evalplus "
# Or `pip install "evalplus[perf,vllm]" --upgrade` for the latest stable release

sudo sh -c ' echo 0 > /proc/sys/kernel/perf_event_paranoid ' # Enable perf
evalplus.evalperf --model " ise-uiuc/Magicoder-S-DS-6.7B " --backend vllm

docker中的安全代碼執行::單擊以展開::

 # Local generation
evalplus.codegen --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                 --dataset evalperf                     
                 --backend vllm                         
                 --temperature 1.0                      
                 --n-samples 100

# Code execution within Docker
sudo sh -c ' echo 0 > /proc/sys/kernel/perf_event_paranoid ' # Enable perf
docker run --cap-add PERFMON --rm --pull=always -v $( pwd ) /evalplus_results:/app ganler/evalplus:latest 
           evalplus.evalperf --samples /app/evalperf/ise-uiuc--Magicoder-S-DS-6.7B_vllm_temp_1.0.jsonl

LLM後端

擁抱面模型

transformers後端：

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend hf                           
                  --greedy

筆記

EvalPlus對基礎和聊天模型使用不同的提示。默認情況下，使用hf / vllm作為後端時，由tokenizer.chat_template檢測到它。對於其他後端，僅允許聊天模式。

因此，如果您的基本型號帶有tokenizer.chat_template ，請添加--force-base-prompt ，以避免在聊天模式下評估。

啟用Flash注意力2 ::單擊以展開::

 # Install Flash Attention 2
pip install packaging ninja
pip install flash-attn --no-build-isolation
# Note: if you have installation problem, consider using pre-built
# wheels from https://github.com/Dao-AILab/flash-attention/releases

# Run evaluation with FA2
evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B "         
                  --dataset [humaneval | mbpp]                     
                  --backend hf                                   
                  --attn-implementation [flash_attention_2 | sdpa] 
                  --greedy

vllm後端：

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend vllm                         
                  --tp [TENSOR_PARALLEL_SIZE]            
                  --greedy

openai兼容服務器（例如，VLLM）：

 # OpenAI models
export OPENAI_API_KEY= " {KEY} " # https://platform.openai.com/settings/organization/api-keys
evalplus.evaluate --model " gpt-4o-2024-08-06 "  
                  --dataset [humaneval | mbpp]   
                  --backend openai --greedy

# DeepSeek
export OPENAI_API_KEY= " {KEY} " # https://platform.deepseek.com/api_keys
evalplus.evaluate --model " deepseek-chat "              
                  --dataset [humaneval | mbpp]           
                  --base-url https://api.deepseek.com  
                  --backend openai --greedy

# Grok
export OPENAI_API_KEY= " {KEY} " # https://console.x.ai/
evalplus.evaluate --model " grok-beta "             
                  --dataset [humaneval | mbpp]      
                  --base-url https://api.x.ai/v1  
                  --backend openai --greedy

# vLLM server
# First, launch a vLLM server: https://docs.vllm.ai/en/latest/serving/deploying_with_docker.html
evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --base-url http://localhost:8000/v1    
                  --backend openai --greedy

Openai型號

訪問OpenAI控制台的OpenAI API

 export OPENAI_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " gpt-4o "            
                  --dataset [humaneval | mbpp]  
                  --backend openai            
                  --greedy

人類模型

從擬人控制台訪問擬人API

 export ANTHROPIC_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " claude-3-haiku-20240307 " 
                  --dataset [humaneval | mbpp]        
                  --backend anthropic               
                  --greedy

Google Gemini模型

訪問Google AI Studio的GEMINI API

 export GOOGLE_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " gemini-1.5-pro "    
                  --dataset [humaneval | mbpp]  
                  --backend google            
                  --greedy

亞馬遜基岩型號

亞馬遜基岩

 export BEDROCK_ROLE_ARN= " [BEDROCK_ROLE_ARN] "
evalplus.evaluate --model " anthropic.claude-3-5-sonnet-20241022-v2:0 " 
                  --dataset [humaneval | mbpp]                          
                  --backend bedrock                                   
                  --greedy

您可以在evalplus_results/[humaneval|mbpp]/

⏬使用ExterPlus作為本地存儲庫？ ::單擊以展開::

git clone https://github.com/evalplus/evalplus.git
cd evalplus
export PYTHONPATH= $PYTHONPATH : $( pwd )
pip install -r requirements.txt

文件

要了解有關如何使用評估Plus的更多信息，請參考以下內容：

evalPlus命令
evalperf
程序執行

引用

 @inproceedings { evalplus ,
  title = { Is Your Code Generated by Chat{GPT} Really Correct? Rigorous Evaluation of Large Language Models for Code Generation } ,
  author = { Liu, Jiawei and Xia, Chunqiu Steven and Wang, Yuyao and Zhang, Lingming } ,
  booktitle = { Thirty-seventh Conference on Neural Information Processing Systems } ,
  year = { 2023 } ,
  url = { https://openreview.net/forum?id=1qvx610Cu7 } ,
}

@inproceedings { evalperf ,
  title = { Evaluating Language Models for Efficient Code Generation } ,
  author = { Liu, Jiawei and Xie, Songrun and Wang, Junhao and Wei, Yuxiang and Ding, Yifeng and Zhang, Lingming } ,
  booktitle = { First Conference on Language Modeling } ,
  year = { 2024 } ,
  url = { https://openreview.net/forum?id=IBCBMeAhmC } ,
}

致謝

人類
MBPP

展開

evalplus

`EvalPlus() =>`

？消息

？關於

快速開始

代碼正確性評估：HumaneVal（+）或MBPP（+）

代碼效率評估：Evalperf（僅*NIX）

LLM後端

擁抱面模型

Openai型號

人類模型

Google Gemini模型

亞馬遜基岩型號

文件

引用

致謝

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express