Descarga evalplus - Descargar el código fuente de evalplus

`EvalPlus() =>`

? Acerca de • Inicio rápido • Backends de LLM • Documentos • Cita • Reconocimiento

? Noticias

¿Quién está utilizando conjuntos de datos de Evalpplus? EvalPlus ha sido utilizado por varios equipos de LLM, que incluyen:

Meta Llama 3.1
QWEN2.5 codificador
Codeqwen 1.5
Deepseek-coder v2
Qwen2
Arctico de copos de nieve
Código de estrellas2
Mágico
Choque de mago

A continuación rastrea las actualizaciones notables de Evalpplus:

[2024-10-20 v0.3.1 ] : Evalpplus v0.3.1 se lanza oficialmente! Destacados: (i) Evaluación de eficiencia del código a través de EvalPerf, (ii) Un comando para ejecutar todos: generación + postprocesamiento + evaluación, (iii) soporte para más inferencias de inferencias como Google Gemini y antrópico, etc.
[2024-06-09 Pre v0.3.0 ] : Soluciones de verdad por tierra mejoradas para tareas MBPP+ (IDS: 459, 102, 559). Gracias a Evalarena.
[2024-04-17 Pre v0.3.0 ] : MBPP+ se actualiza a v0.2.0 eliminando algunas tareas rotas (399-> 378 tareas). ~ 4pp Pass@1 Se puede esperar una mejora.

Noticias anteriores :: Haga clic para expandir ::

( v0.2.1 ) ¡Puede usar conjuntos de datos EvalPlus a través de BigCode-Evaluation-Harness! Humaneval+ correcciones de Oracle (32).
( v0.2.0 ) ¡MBPP+ se lanza! Humaneval Contract & Entrada Fixes (3/3/9/148/114/1/2/99/28/32/35/160).
( v0.1.7 ) Liberación de la tabla de clasificación; Humaneval+ correcciones de contrato y entrada (32/166/126/6)
( v0.1.6 ) Configuración de tiempo de espera de tiempo configurable y por defecto-conservador; Humaneval+ correcciones de contrato y verdad en tierra (129/148/75/53/0/3/9/140)
( v0.1.5 ) Humaneval+ mini se libera para una evaluación ultra rápida cuando tienes demasiadas muestras!
( v0.1.1 ) Optimización de experiencias del usuario: Velocidad de evaluación, paquete PYPI, Docker, etc.
( v0.1.0 ) ¡Humaneval+ se lanza!

? Acerca de

EvalPlus es un marco de evaluación riguroso para LLM4Code, con:

Humaneval+ : 80x ¡Más pruebas que el Humaneval original!
MBPP+ : 35x ¡Más pruebas que el MBPP original!
Evalperf : ¡Evaluación de la eficiencia del código generado por LLM!
Marco : nuestros paquetes/imágenes/herramientas pueden evaluar de manera fácil y segura LLM en puntos de referencia anteriores.

¿Por qué evaluar?

Evaluación precisa : consulte nuestra clasificación para las últimas clasificaciones de LLM antes y después de una evaluación rigurosa.
Codificación de rigurosidad : ¡Mira las diferencias de puntaje! espeal ¡Antes y después de usar pruebas de evaluación! Menos caída significa más rigurosidad en la generación de código; mientras que una caída más grande significa que el código generado tiende a ser frágil.
Eficiencia del código : más allá de la corrección, nuestro conjunto de datos EvalPerf evalúa la eficiencia del código generado por LLM a través de tareas de codificación de ejercicios de rendimiento y entradas de prueba.

¿Quieres saber más detalles? ¡Lea nuestros documentos y materiales!

EvalPlus : Neurips'23 papel, diapositivas, póster, tabla de clasificación
Evalperf : colm'24 papel, póster, documentación, tabla de clasificación

Comienzo rápido

Evaluación de la corrección del código: Humaneval (+) o MBPP (+)

pip install --upgrade " evalplus[vllm] @ git+https://github.com/evalplus/evalplus "
# Or `pip install "evalplus[vllm]" --upgrade` for the latest stable release

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend vllm                         
                  --greedy

? ️ Ejecución de código seguro dentro de Docker :: Haga clic para expandir ::

 # Local generation
evalplus.codegen --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                 --dataset humaneval                    
                 --backend vllm                         
                 --greedy

# Code execution within Docker
docker run --rm --pull=always -v $( pwd ) /evalplus_results:/app ganler/evalplus:latest 
           evalplus.evaluate --dataset humaneval                                     
           --samples /app/humaneval/ise-uiuc--Magicoder-S-DS-6.7B_vllm_temp_0.0.jsonl

Evaluación de la eficiencia del código: Evalperf (*NIX solo)

pip install --upgrade " evalplus[perf,vllm] @ git+https://github.com/evalplus/evalplus "
# Or `pip install "evalplus[perf,vllm]" --upgrade` for the latest stable release

sudo sh -c ' echo 0 > /proc/sys/kernel/perf_event_paranoid ' # Enable perf
evalplus.evalperf --model " ise-uiuc/Magicoder-S-DS-6.7B " --backend vllm

? ️ Ejecución de código seguro dentro de Docker :: Haga clic para expandir ::

 # Local generation
evalplus.codegen --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                 --dataset evalperf                     
                 --backend vllm                         
                 --temperature 1.0                      
                 --n-samples 100

# Code execution within Docker
sudo sh -c ' echo 0 > /proc/sys/kernel/perf_event_paranoid ' # Enable perf
docker run --cap-add PERFMON --rm --pull=always -v $( pwd ) /evalplus_results:/app ganler/evalplus:latest 
           evalplus.evalperf --samples /app/evalperf/ise-uiuc--Magicoder-S-DS-6.7B_vllm_temp_1.0.jsonl

LLM Backends

Modelos de Huggingface

transformers Backend:

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend hf                           
                  --greedy

Nota

EvalPlus utiliza diferentes indicaciones para modelos base y de chat. Por defecto, es detectado por tokenizer.chat_template cuando se usa hf / vllm como Backend. Para otros backends, solo se permite el modo de chat.

Por lo tanto, si sus modelos base vienen con un tokenizer.chat_template , agregue --force-base-prompt para evitar ser evaluado en un modo de chat.

Habilitar atención flash 2 :: Haga clic para expandir ::

 # Install Flash Attention 2
pip install packaging ninja
pip install flash-attn --no-build-isolation
# Note: if you have installation problem, consider using pre-built
# wheels from https://github.com/Dao-AILab/flash-attention/releases

# Run evaluation with FA2
evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B "         
                  --dataset [humaneval | mbpp]                     
                  --backend hf                                   
                  --attn-implementation [flash_attention_2 | sdpa] 
                  --greedy

vllm Backend:

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend vllm                         
                  --tp [TENSOR_PARALLEL_SIZE]            
                  --greedy

Servidores compatibles openai (por ejemplo, VLLM):

 # OpenAI models
export OPENAI_API_KEY= " {KEY} " # https://platform.openai.com/settings/organization/api-keys
evalplus.evaluate --model " gpt-4o-2024-08-06 "  
                  --dataset [humaneval | mbpp]   
                  --backend openai --greedy

# DeepSeek
export OPENAI_API_KEY= " {KEY} " # https://platform.deepseek.com/api_keys
evalplus.evaluate --model " deepseek-chat "              
                  --dataset [humaneval | mbpp]           
                  --base-url https://api.deepseek.com  
                  --backend openai --greedy

# Grok
export OPENAI_API_KEY= " {KEY} " # https://console.x.ai/
evalplus.evaluate --model " grok-beta "             
                  --dataset [humaneval | mbpp]      
                  --base-url https://api.x.ai/v1  
                  --backend openai --greedy

# vLLM server
# First, launch a vLLM server: https://docs.vllm.ai/en/latest/serving/deploying_with_docker.html
evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --base-url http://localhost:8000/v1    
                  --backend openai --greedy

Modelos OpenAI

Acceda a las API Operai desde la consola Operai

 export OPENAI_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " gpt-4o "            
                  --dataset [humaneval | mbpp]  
                  --backend openai            
                  --greedy

Modelos antrópicos

Acceder a las API antrópicas desde la consola antrópica

 export ANTHROPIC_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " claude-3-haiku-20240307 " 
                  --dataset [humaneval | mbpp]        
                  --backend anthropic               
                  --greedy

Modelos de Google Géminis

Access API de Géminis desde Google AI Studio

 export GOOGLE_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " gemini-1.5-pro "    
                  --dataset [humaneval | mbpp]  
                  --backend google            
                  --greedy

Modelos de roca madre de Amazon

Roca madre de Amazon

 export BEDROCK_ROLE_ARN= " [BEDROCK_ROLE_ARN] "
evalplus.evaluate --model " anthropic.claude-3-5-sonnet-20241022-v2:0 " 
                  --dataset [humaneval | mbpp]                          
                  --backend bedrock                                   
                  --greedy

Puede consultar la generación y los resultados en evalplus_results/[humaneval|mbpp]/

⏬ ¿Uso de Evalvplus como repositorio local? :: Haga clic para expandir ::

git clone https://github.com/evalplus/evalplus.git
cd evalplus
export PYTHONPATH= $PYTHONPATH : $( pwd )
pip install -r requirements.txt

Documentos

Para obtener más información sobre cómo usar EvalPplus, consulte:

Comandos de evaluación
Evaluación
Ejecución del programa

Citación

 @inproceedings { evalplus ,
  title = { Is Your Code Generated by Chat{GPT} Really Correct? Rigorous Evaluation of Large Language Models for Code Generation } ,
  author = { Liu, Jiawei and Xia, Chunqiu Steven and Wang, Yuyao and Zhang, Lingming } ,
  booktitle = { Thirty-seventh Conference on Neural Information Processing Systems } ,
  year = { 2023 } ,
  url = { https://openreview.net/forum?id=1qvx610Cu7 } ,
}

@inproceedings { evalperf ,
  title = { Evaluating Language Models for Efficient Code Generation } ,
  author = { Liu, Jiawei and Xie, Songrun and Wang, Junhao and Wei, Yuxiang and Ding, Yifeng and Zhang, Lingming } ,
  booktitle = { First Conference on Language Modeling } ,
  year = { 2024 } ,
  url = { https://openreview.net/forum?id=IBCBMeAhmC } ,
}

Reconocimiento

Humanal
MBPP

Expandir

evalplus

`EvalPlus() =>`

? Noticias

? Acerca de

Comienzo rápido

Evaluación de la corrección del código: Humaneval (+) o MBPP (+)

Evaluación de la eficiencia del código: Evalperf (*NIX solo)

LLM Backends

Modelos de Huggingface

Modelos OpenAI

Modelos antrópicos

Modelos de Google Géminis

Modelos de roca madre de Amazon

Documentos

Citación

Reconocimiento

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express