download evalplus - download de código fonte evalplus

`EvalPlus() =>`

? Sobre • Iniciar rápido • back -ends LLM • Documentos • Citação • Reconhecimento

? Notícias

Quem está usando os conjuntos de dados do EvalPlus? A avaliação tem sido usada por várias equipes LLM, incluindo:

Meta llama 3.1
QWEN2.5-Coder
Codeqwen 1.5
Deepseek-Coder V2
Qwen2
Ártico do floco de neve
StarCoder2
Magicoder
WizardCoder

Abaixo, rastreia as atualizações notáveis do avaliação do avaliação:

[2024-10-20 v0.3.1 ] : EVALPLUS v0.3.1 é liberado oficialmente! Destaques: (i) Avaliação da eficiência do código via avaliperf, (ii) um comando para executar tudo: geração + pós-processamento + avaliação, (iii) suporte para mais back-ends de inferência, como Google Gemini & Anthrópio, etc.
[2024-06-09 Pre v0.3.0 ] : Soluções aprimoradas de truta fundamental para tarefas MBPP+ (IDS: 459, 102, 559). Graças a avaliarna.
[2024-04-17 Pre v0.3.0 ] : MBPP+ é atualizado para v0.2.0 removendo algumas tarefas quebradas (399-> 378 tarefas). ~ 4pp Pass@1 Melhoria poderia ser esperado.

Notícias anteriores :: Clique para expandir ::

( v0.2.1 ) Você pode usar os conjuntos de dados de avaliação de avaliação por meio do bigcode-avaliação! Humaneval+ Oracle Fixes (32).
( v0.2.0 ) O MBPP+ foi lançado! Contrato da Humaneval e correções de entrada (0/3/9/148/114/1/2/99/28/32/35/160).
( v0.1.7 ) Lançamento da tabela de classificação; Correções de contrato e entrada de Humaneval (32/166/126/6)
( v0.1.6 ) Configurações de tempo limite configuráveis e por defesa-de-defasão; Correções de contrato+ contrato e truta fundamental (129/148/75/53/0/3/9/140)
( v0.1.5 ) O Humaneval+ Mini é lançado para avaliação ultra-rápida quando você tem muitas amostras!
( v0.1.1 ) Otimizando as experiências do usuário: velocidade de avaliação, pacote Pypi, docker, etc.
( v0.1.0 ) Humaneval+ é lançado!

? Sobre

Avaliação é uma estrutura de avaliação rigorosa para o LLM4Code, com:

Humaneval+ : 80x mais testes do que o Humaneval original!
MBPP+ : 35x mais testes do que o MBPP original!
Evalperf : Avaliando a eficiência do código gerado por LLM!
Framework : Nossos pacotes/imagens/ferramentas podem avaliar com facilidade e segurança LLMs nos benchmarks acima.

Por que avaliar?

Avaliação precisa : consulte nossa tabela de classificação para obter as últimas classificações LLM antes e após uma avaliação rigorosa.
Codificação rigorosa : veja as diferenças de pontuação! esp. Antes e depois de usar os testes de avaliação! Menos gota significa mais rigor em geração de código; Enquanto uma queda maior significa que o código gerado tende a ser frágil.
Eficiência de código : além da correção, nosso conjunto de dados Evalperf avalia a eficiência do código gerado por LLM por meio de tarefas de codificação de exercício de desempenho e entradas de teste.

Quer saber mais detalhes? Leia nossos papéis e materiais!

Avaliação : neurips'23 papel, slides, pôster, tabela de classificação
Evalperf : papel colm'24, pôster, documentação, tabela de classificação

Início rápido

Avaliação da correção do código: Humaneval (+) ou MBPP (+)

pip install --upgrade " evalplus[vllm] @ git+https://github.com/evalplus/evalplus "
# Or `pip install "evalplus[vllm]" --upgrade` for the latest stable release

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend vllm                         
                  --greedy

? Aste Execução de código seguro no Docker :: Clique para expandir ::

 # Local generation
evalplus.codegen --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                 --dataset humaneval                    
                 --backend vllm                         
                 --greedy

# Code execution within Docker
docker run --rm --pull=always -v $( pwd ) /evalplus_results:/app ganler/evalplus:latest 
           evalplus.evaluate --dataset humaneval                                     
           --samples /app/humaneval/ise-uiuc--Magicoder-S-DS-6.7B_vllm_temp_0.0.jsonl

Avaliação da eficiência do código: Evalperf (*NIX somente)

pip install --upgrade " evalplus[perf,vllm] @ git+https://github.com/evalplus/evalplus "
# Or `pip install "evalplus[perf,vllm]" --upgrade` for the latest stable release

sudo sh -c ' echo 0 > /proc/sys/kernel/perf_event_paranoid ' # Enable perf
evalplus.evalperf --model " ise-uiuc/Magicoder-S-DS-6.7B " --backend vllm

? Aste Execução de código seguro no Docker :: Clique para expandir ::

 # Local generation
evalplus.codegen --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                 --dataset evalperf                     
                 --backend vllm                         
                 --temperature 1.0                      
                 --n-samples 100

# Code execution within Docker
sudo sh -c ' echo 0 > /proc/sys/kernel/perf_event_paranoid ' # Enable perf
docker run --cap-add PERFMON --rm --pull=always -v $( pwd ) /evalplus_results:/app ganler/evalplus:latest 
           evalplus.evalperf --samples /app/evalperf/ise-uiuc--Magicoder-S-DS-6.7B_vllm_temp_1.0.jsonl

LLM Backends

Modelos Huggingface

Back -end transformers :

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend hf                           
                  --greedy

Observação

A avaliação usa instruções diferentes para modelos de base e bate -papo. Por padrão, é detectado pelo tokenizer.chat_template ao usar hf / vllm como back -end. Para outros back -end, apenas o modo de bate -papo é permitido.

Portanto, se seus modelos básicos vieram com um tokenizer.chat_template , adicione --force-base-prompt para evitar ser avaliado em um modo de bate-papo.

Ativar atenção flash 2 :: clique para expandir ::

 # Install Flash Attention 2
pip install packaging ninja
pip install flash-attn --no-build-isolation
# Note: if you have installation problem, consider using pre-built
# wheels from https://github.com/Dao-AILab/flash-attention/releases

# Run evaluation with FA2
evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B "         
                  --dataset [humaneval | mbpp]                     
                  --backend hf                                   
                  --attn-implementation [flash_attention_2 | sdpa] 
                  --greedy

back -end vllm :

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend vllm                         
                  --tp [TENSOR_PARALLEL_SIZE]            
                  --greedy

Servidores compatíveis openai (por exemplo, VLLM):

 # OpenAI models
export OPENAI_API_KEY= " {KEY} " # https://platform.openai.com/settings/organization/api-keys
evalplus.evaluate --model " gpt-4o-2024-08-06 "  
                  --dataset [humaneval | mbpp]   
                  --backend openai --greedy

# DeepSeek
export OPENAI_API_KEY= " {KEY} " # https://platform.deepseek.com/api_keys
evalplus.evaluate --model " deepseek-chat "              
                  --dataset [humaneval | mbpp]           
                  --base-url https://api.deepseek.com  
                  --backend openai --greedy

# Grok
export OPENAI_API_KEY= " {KEY} " # https://console.x.ai/
evalplus.evaluate --model " grok-beta "             
                  --dataset [humaneval | mbpp]      
                  --base-url https://api.x.ai/v1  
                  --backend openai --greedy

# vLLM server
# First, launch a vLLM server: https://docs.vllm.ai/en/latest/serving/deploying_with_docker.html
evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --base-url http://localhost:8000/v1    
                  --backend openai --greedy

Modelos Openai

Acesse APIs OpenAI do OpenAi Console

 export OPENAI_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " gpt-4o "            
                  --dataset [humaneval | mbpp]  
                  --backend openai            
                  --greedy

Modelos antrópicos

Acesse APIs antrópicas do console antrópico

 export ANTHROPIC_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " claude-3-haiku-20240307 " 
                  --dataset [humaneval | mbpp]        
                  --backend anthropic               
                  --greedy

Modelos do Google Gemini

Access Gemini APIs do Google AI Studio

 export GOOGLE_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " gemini-1.5-pro "    
                  --dataset [humaneval | mbpp]  
                  --backend google            
                  --greedy

Modelos Amazon Bedrock

Amazon Bedrock

 export BEDROCK_ROLE_ARN= " [BEDROCK_ROLE_ARN] "
evalplus.evaluate --model " anthropic.claude-3-5-sonnet-20241022-v2:0 " 
                  --dataset [humaneval | mbpp]                          
                  --backend bedrock                                   
                  --greedy

Você pode verificar a geração e os resultados em evalplus_results/[humaneval|mbpp]/

⏬ Usando o EvalPlus como um repositório local? :: Clique para expandir ::

git clone https://github.com/evalplus/evalplus.git
cd evalplus
export PYTHONPATH= $PYTHONPATH : $( pwd )
pip install -r requirements.txt

Documentos

Para saber mais sobre como usar o avaliação, consulte:

Comandos avaliados
Evalperf
Execução do programa

Citação

 @inproceedings { evalplus ,
  title = { Is Your Code Generated by Chat{GPT} Really Correct? Rigorous Evaluation of Large Language Models for Code Generation } ,
  author = { Liu, Jiawei and Xia, Chunqiu Steven and Wang, Yuyao and Zhang, Lingming } ,
  booktitle = { Thirty-seventh Conference on Neural Information Processing Systems } ,
  year = { 2023 } ,
  url = { https://openreview.net/forum?id=1qvx610Cu7 } ,
}

@inproceedings { evalperf ,
  title = { Evaluating Language Models for Efficient Code Generation } ,
  author = { Liu, Jiawei and Xie, Songrun and Wang, Junhao and Wei, Yuxiang and Ding, Yifeng and Zhang, Lingming } ,
  booktitle = { First Conference on Language Modeling } ,
  year = { 2024 } ,
  url = { https://openreview.net/forum?id=IBCBMeAhmC } ,
}

Reconhecimento

Humaneval
Mbpp

Expandir

evalplus

`EvalPlus() =>`

? Notícias

? Sobre

Início rápido

Avaliação da correção do código: Humaneval (+) ou MBPP (+)

Avaliação da eficiência do código: Evalperf (*NIX somente)

LLM Backends

Modelos Huggingface

Modelos Openai

Modelos antrópicos

Modelos do Google Gemini

Modelos Amazon Bedrock

Documentos

Citação

Reconhecimento

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express