evalplus下载 - evalplus源代码下载

`EvalPlus() =>`

大约•快速启动•LLM后端•文档•引文•确认

？消息

谁在使用evalplus数据集？ LLM团队使用了评估Plus，包括：

Meta Llama 3.1
qwen2.5代码
Codeqwen 1.5
DeepSeek-Coder V2
qwen2
雪花北极
StarCoder2
魔术师
WizardCoder

下面跟踪EvalPlus的显着更新：

[2024-10-20 v0.3.1 ] ：evalplus v0.3.1正式发布！亮点： （i）代码效率通过esteperf进行评估， （ii）一个运行全部运行的命令：一代 +后处理 +评估， （iii）支持更多推理后端，例如Google Gemini＆Anthropic等。
[2024-06-09 PRE v0.3.0 ] ：改进了MBPP+任务的地面真相解决方案（IDS：459，102，559）。感谢evalarena。
[2024-04-17 pre v0.3.0 ] ：通过删除一些损坏的任务（399-> 378任务），将MBPP+升级到v0.2.0 。〜4pp Pass@1可以提高1个。

较早的新闻::单击以展开::

（ v0.2.1 ）您可以通过BigCode-evaluation-Harness使用EvalPlus数据集！ HumaneVal+ Oracle修复（32）。
（ v0.2.0 ）MBPP+已发布！ Humaneval合同和输入修复程序（0/3/9/148/114/1/1/2/99/28/32/35/160）。
（ v0.1.7 ）排行榜发布； Humaneval+合同和输入修复程序（32/166/126/6）
（ v0.1.6 ）可配置和违约保守的超时设置； Humaneval+合同和地面真相修复（129/148/75/75/53/0/3/9/140）
（ v0.1.5 ）当您有太多样本时，HumaneVal+ Mini将进行超快速评估！
（ v0.1.1 ）优化用户体验：评估速度，PYPI软件包，Docker等
（ v0.1.0 ）HumaneVal+已发布！

？关于

评估Plus是LLM4Code的严格评估框架，其中：

人类事件+ ：比原始人类多80倍的测试！
MBPP+ ：比原始MBPP多35倍！
Evalperf ：评估LLM生成的代码的效率！
框架：我们的软件包/图像/工具可以轻松，安全地评估上述基准测试的LLM。

为什么要评估？

精确评估：有关严格评估之前和之后的最新LLM排名，请参见我们的排行榜。
编码严格性：查看分数差异！尤其使用EvalPlus测试之前和之后！降低意味着代码生成更严格；较大的下降意味着生成的代码往往是脆弱的。
代码效率：除了正确性之外，我们的evalperf数据集通过绩效执行编码任务和测试输入来评估LLM生成的代码的效率。

想知道更多细节吗？阅读我们的论文和材料！

评估：Neurips'23纸，幻灯片，海报，排行榜
Evalperf ：Colm'24纸，海报，文档，排行榜

快速开始

代码正确性评估：HumaneVal（+）或MBPP（+）

pip install --upgrade " evalplus[vllm] @ git+https://github.com/evalplus/evalplus "
# Or `pip install "evalplus[vllm]" --upgrade` for the latest stable release

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend vllm                         
                  --greedy

docker中的安全代码执行::单击以展开::

 # Local generation
evalplus.codegen --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                 --dataset humaneval                    
                 --backend vllm                         
                 --greedy

# Code execution within Docker
docker run --rm --pull=always -v $( pwd ) /evalplus_results:/app ganler/evalplus:latest 
           evalplus.evaluate --dataset humaneval                                     
           --samples /app/humaneval/ise-uiuc--Magicoder-S-DS-6.7B_vllm_temp_0.0.jsonl

代码效率评估：Evalperf（仅*NIX）

pip install --upgrade " evalplus[perf,vllm] @ git+https://github.com/evalplus/evalplus "
# Or `pip install "evalplus[perf,vllm]" --upgrade` for the latest stable release

sudo sh -c ' echo 0 > /proc/sys/kernel/perf_event_paranoid ' # Enable perf
evalplus.evalperf --model " ise-uiuc/Magicoder-S-DS-6.7B " --backend vllm

docker中的安全代码执行::单击以展开::

 # Local generation
evalplus.codegen --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                 --dataset evalperf                     
                 --backend vllm                         
                 --temperature 1.0                      
                 --n-samples 100

# Code execution within Docker
sudo sh -c ' echo 0 > /proc/sys/kernel/perf_event_paranoid ' # Enable perf
docker run --cap-add PERFMON --rm --pull=always -v $( pwd ) /evalplus_results:/app ganler/evalplus:latest 
           evalplus.evalperf --samples /app/evalperf/ise-uiuc--Magicoder-S-DS-6.7B_vllm_temp_1.0.jsonl

LLM后端

拥抱面模型

transformers后端：

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend hf                           
                  --greedy

笔记

EvalPlus对基础和聊天模型使用不同的提示。默认情况下，使用hf / vllm作为后端时，由tokenizer.chat_template检测到它。对于其他后端，仅允许聊天模式。

因此，如果您的基本型号带有tokenizer.chat_template ，请添加--force-base-prompt ，以避免在聊天模式下评估。

启用Flash注意力2 ::单击以展开::

 # Install Flash Attention 2
pip install packaging ninja
pip install flash-attn --no-build-isolation
# Note: if you have installation problem, consider using pre-built
# wheels from https://github.com/Dao-AILab/flash-attention/releases

# Run evaluation with FA2
evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B "         
                  --dataset [humaneval | mbpp]                     
                  --backend hf                                   
                  --attn-implementation [flash_attention_2 | sdpa] 
                  --greedy

vllm后端：

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend vllm                         
                  --tp [TENSOR_PARALLEL_SIZE]            
                  --greedy

openai兼容服务器（例如，VLLM）：

 # OpenAI models
export OPENAI_API_KEY= " {KEY} " # https://platform.openai.com/settings/organization/api-keys
evalplus.evaluate --model " gpt-4o-2024-08-06 "  
                  --dataset [humaneval | mbpp]   
                  --backend openai --greedy

# DeepSeek
export OPENAI_API_KEY= " {KEY} " # https://platform.deepseek.com/api_keys
evalplus.evaluate --model " deepseek-chat "              
                  --dataset [humaneval | mbpp]           
                  --base-url https://api.deepseek.com  
                  --backend openai --greedy

# Grok
export OPENAI_API_KEY= " {KEY} " # https://console.x.ai/
evalplus.evaluate --model " grok-beta "             
                  --dataset [humaneval | mbpp]      
                  --base-url https://api.x.ai/v1  
                  --backend openai --greedy

# vLLM server
# First, launch a vLLM server: https://docs.vllm.ai/en/latest/serving/deploying_with_docker.html
evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --base-url http://localhost:8000/v1    
                  --backend openai --greedy

Openai型号

访问OpenAI控制台的OpenAI API

 export OPENAI_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " gpt-4o "            
                  --dataset [humaneval | mbpp]  
                  --backend openai            
                  --greedy

人类模型

从拟人控制台访问拟人API

 export ANTHROPIC_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " claude-3-haiku-20240307 " 
                  --dataset [humaneval | mbpp]        
                  --backend anthropic               
                  --greedy

Google Gemini模型

访问Google AI Studio的GEMINI API

 export GOOGLE_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " gemini-1.5-pro "    
                  --dataset [humaneval | mbpp]  
                  --backend google            
                  --greedy

亚马逊基岩型号

亚马逊基岩

 export BEDROCK_ROLE_ARN= " [BEDROCK_ROLE_ARN] "
evalplus.evaluate --model " anthropic.claude-3-5-sonnet-20241022-v2:0 " 
                  --dataset [humaneval | mbpp]                          
                  --backend bedrock                                   
                  --greedy

您可以在evalplus_results/[humaneval|mbpp]/

⏬使用ExterPlus作为本地存储库？ ::单击以展开::

git clone https://github.com/evalplus/evalplus.git
cd evalplus
export PYTHONPATH= $PYTHONPATH : $( pwd )
pip install -r requirements.txt

文件

要了解有关如何使用评估Plus的更多信息，请参考以下内容：

evalPlus命令
evalperf
程序执行

引用

 @inproceedings { evalplus ,
  title = { Is Your Code Generated by Chat{GPT} Really Correct? Rigorous Evaluation of Large Language Models for Code Generation } ,
  author = { Liu, Jiawei and Xia, Chunqiu Steven and Wang, Yuyao and Zhang, Lingming } ,
  booktitle = { Thirty-seventh Conference on Neural Information Processing Systems } ,
  year = { 2023 } ,
  url = { https://openreview.net/forum?id=1qvx610Cu7 } ,
}

@inproceedings { evalperf ,
  title = { Evaluating Language Models for Efficient Code Generation } ,
  author = { Liu, Jiawei and Xie, Songrun and Wang, Junhao and Wei, Yuxiang and Ding, Yifeng and Zhang, Lingming } ,
  booktitle = { First Conference on Language Modeling } ,
  year = { 2024 } ,
  url = { https://openreview.net/forum?id=IBCBMeAhmC } ,
}

致谢

人类
MBPP

展开

evalplus

`EvalPlus() =>`

？消息

？关于

快速开始

代码正确性评估：HumaneVal（+）或MBPP（+）

代码效率评估：Evalperf（仅*NIX）

LLM后端

拥抱面模型

Openai型号

人类模型

Google Gemini模型

亚马逊基岩型号

文件

引用

致谢

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express