Téléchargement evalplus - Téléchargement du code source evalplus

`EvalPlus() =>`

? À propos • Démarrage rapide • Backends LLM • Documents • Citation • Recommens

? Nouvelles

Qui utilise des ensembles de données EvalPlus? EvalPlus a été utilisé par diverses équipes LLM, notamment:

Meta Llama 3.1
CODER QWEN2.5
CodeQwen 1.5
Coder profonde v2
Qwen2
ARCTIQUE DE FLAKE
Starcoder2
Magicoder
Coder

Ci-dessous suit les mises à jour notables de l'évaluation:

[2024-10-20 v0.3.1 ] : EVALPLUS v0.3.1 est officiellement libéré! Faits saillants: (i) Évaluation de l'efficacité du code via EVAMPERF, (ii) une commande pour exécuter tout: génération + post-traitement + évaluation, (iii) Prise en charge de plus de backends d'inférence tels que Google Gemini et anthropic, etc.
[2024-06-09 PRE v0.3.0 ] : Solutions à vérification au sol améliorées pour les tâches MBPP + (IDS: 459, 102, 559). Merci à Evarena.
[2024-04-17 PRE v0.3.0 ] : MBPP + est mis à niveau en v0.2.0 en supprimant certaines tâches cassées (399 -> 378 tâches). ~ 4pp Pass @ 1 amélioration pourrait être attendue.

Nouvelles antérieures :: cliquez pour agrandir ::

( v0.2.1 ) Vous pouvez utiliser des ensembles de données EVAMPLUS via BigCode-Evaluation Harness! Humaneval + Oracle Fixes (32).
( v0.2.0 ) MBPP + est publié! Contrat Humaneval et correctifs d'entrée (0/3/9/148/114/1/2/99/28/32/35/160).
( v0.1.7 ) Libération de classement; Humaneval + Contrat et Correction d'entrée (32/166/126/6)
( v0.1.6 ) Paramètres de délai d'expiration configurable et par défaut par dé-dé-dé-dé-dé-détention; Humaneval + Contrat & Ground-Truth Fixes (129/148/75/53/0/3/9/140)
( v0.1.5 ) Humaneval + Mini est libéré pour une évaluation ultra-rapide lorsque vous avez trop d'échantillons!
( v0.1.1 ) Optimisation des expériences utilisateur: vitesse d'évaluation, package PYPI, docker, etc.
( v0.1.0 ) Humaneval + est libéré!

? À propos

EVALPLUS est un cadre d'évaluation rigoureux pour LLM4code, avec:

Humaneval + : 80x plus de tests que l'original Humaneval!
MBPP + : 35x plus de tests que le MBPP d'origine!
Évaluation : évaluation de l'efficacité du code généré par LLM!
Framework : Nos packages / images / outils peuvent évaluer facilement et en toute sécurité les LLM sur les références ci-dessus.

Pourquoi EVAMPLUS?

Évaluation précise : voir notre classement pour les derniers classements LLM avant et après une évaluation rigoureuse.
CODING RIMIROPITÉ : Regardez les différences de score! esp. Avant et après avoir utilisé des tests EVAMPLUS! Moins de chute signifie plus de rigidité dans la génération de code; Alors qu'une plus grande goutte signifie que le code généré a tendance à être fragile.
Efficacité du code : Au-delà de l'exactitude, notre ensemble de données EVAMPERF évalue l'efficacité du code généré par LLM via des tâches de codage exerçant les performances et des entrées de test.

Vous voulez en savoir plus? Lisez nos papiers et matériaux!

EVALPLUS : Papier Neirips'23, diapositives, affiche, classement
EvalPerf : papier Colm'24, affiche, documentation, classement

Démarrage rapide

Évaluation de l'exactitude du code: humaneval (+) ou mbpp (+)

pip install --upgrade " evalplus[vllm] @ git+https://github.com/evalplus/evalplus "
# Or `pip install "evalplus[vllm]" --upgrade` for the latest stable release

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend vllm                         
                  --greedy

? ️ Exécution du code sûr dans docker :: cliquez pour agrandir ::

 # Local generation
evalplus.codegen --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                 --dataset humaneval                    
                 --backend vllm                         
                 --greedy

# Code execution within Docker
docker run --rm --pull=always -v $( pwd ) /evalplus_results:/app ganler/evalplus:latest 
           evalplus.evaluate --dataset humaneval                                     
           --samples /app/humaneval/ise-uiuc--Magicoder-S-DS-6.7B_vllm_temp_0.0.jsonl

Évaluation de l'efficacité du code: EVAMPERF (* NIX uniquement)

pip install --upgrade " evalplus[perf,vllm] @ git+https://github.com/evalplus/evalplus "
# Or `pip install "evalplus[perf,vllm]" --upgrade` for the latest stable release

sudo sh -c ' echo 0 > /proc/sys/kernel/perf_event_paranoid ' # Enable perf
evalplus.evalperf --model " ise-uiuc/Magicoder-S-DS-6.7B " --backend vllm

? ️ Exécution du code sûr dans docker :: cliquez pour agrandir ::

 # Local generation
evalplus.codegen --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                 --dataset evalperf                     
                 --backend vllm                         
                 --temperature 1.0                      
                 --n-samples 100

# Code execution within Docker
sudo sh -c ' echo 0 > /proc/sys/kernel/perf_event_paranoid ' # Enable perf
docker run --cap-add PERFMON --rm --pull=always -v $( pwd ) /evalplus_results:/app ganler/evalplus:latest 
           evalplus.evalperf --samples /app/evalperf/ise-uiuc--Magicoder-S-DS-6.7B_vllm_temp_1.0.jsonl

LLM Backends

Modèles de câlins

Backend transformers :

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend hf                           
                  --greedy

Note

EvalPlus utilise différentes invites pour les modèles de base et de chat. Par défaut, il est détecté par tokenizer.chat_template lors de l'utilisation hf / vllm comme backend. Pour les autres backends, seul le mode de chat est autorisé.

Par conséquent, si vos modèles de base sont livrés avec un tokenizer.chat_template , veuillez ajouter --force-base-prompt pour éviter d'être évalué en mode de chat.

Activer la Flash Aattendre 2 :: Cliquez pour agrandir ::

 # Install Flash Attention 2
pip install packaging ninja
pip install flash-attn --no-build-isolation
# Note: if you have installation problem, consider using pre-built
# wheels from https://github.com/Dao-AILab/flash-attention/releases

# Run evaluation with FA2
evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B "         
                  --dataset [humaneval | mbpp]                     
                  --backend hf                                   
                  --attn-implementation [flash_attention_2 | sdpa] 
                  --greedy

Backend vllm :

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend vllm                         
                  --tp [TENSOR_PARALLEL_SIZE]            
                  --greedy

Serveurs compatibles openai (par exemple, VLLM):

 # OpenAI models
export OPENAI_API_KEY= " {KEY} " # https://platform.openai.com/settings/organization/api-keys
evalplus.evaluate --model " gpt-4o-2024-08-06 "  
                  --dataset [humaneval | mbpp]   
                  --backend openai --greedy

# DeepSeek
export OPENAI_API_KEY= " {KEY} " # https://platform.deepseek.com/api_keys
evalplus.evaluate --model " deepseek-chat "              
                  --dataset [humaneval | mbpp]           
                  --base-url https://api.deepseek.com  
                  --backend openai --greedy

# Grok
export OPENAI_API_KEY= " {KEY} " # https://console.x.ai/
evalplus.evaluate --model " grok-beta "             
                  --dataset [humaneval | mbpp]      
                  --base-url https://api.x.ai/v1  
                  --backend openai --greedy

# vLLM server
# First, launch a vLLM server: https://docs.vllm.ai/en/latest/serving/deploying_with_docker.html
evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --base-url http://localhost:8000/v1    
                  --backend openai --greedy

Modèles Openai

Accédez aux API Openai depuis la console Openai

 export OPENAI_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " gpt-4o "            
                  --dataset [humaneval | mbpp]  
                  --backend openai            
                  --greedy

Modèles anthropes

Accéder aux API anthropes à partir de la console anthropique

 export ANTHROPIC_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " claude-3-haiku-20240307 " 
                  --dataset [humaneval | mbpp]        
                  --backend anthropic               
                  --greedy

Modèles Google Gemini

Access Gemini API depuis Google AI Studio

 export GOOGLE_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " gemini-1.5-pro "    
                  --dataset [humaneval | mbpp]  
                  --backend google            
                  --greedy

Modèles de substratum rocheux Amazon

Bouilloire Amazon

 export BEDROCK_ROLE_ARN= " [BEDROCK_ROLE_ARN] "
evalplus.evaluate --model " anthropic.claude-3-5-sonnet-20241022-v2:0 " 
                  --dataset [humaneval | mbpp]                          
                  --backend bedrock                                   
                  --greedy

Vous pouvez vérifier la génération et les résultats sur evalplus_results/[humaneval|mbpp]/

⏬ Utilisation d'EvalPlus comme dépôt local? :: cliquez pour agrandir ::

git clone https://github.com/evalplus/evalplus.git
cd evalplus
export PYTHONPATH= $PYTHONPATH : $( pwd )
pip install -r requirements.txt

Documents

Pour en savoir plus sur la façon d'utiliser EVALPLUS, veuillez vous référer à:

Commandes d'évaluation
Évaluer
Exécution du programme

Citation

 @inproceedings { evalplus ,
  title = { Is Your Code Generated by Chat{GPT} Really Correct? Rigorous Evaluation of Large Language Models for Code Generation } ,
  author = { Liu, Jiawei and Xia, Chunqiu Steven and Wang, Yuyao and Zhang, Lingming } ,
  booktitle = { Thirty-seventh Conference on Neural Information Processing Systems } ,
  year = { 2023 } ,
  url = { https://openreview.net/forum?id=1qvx610Cu7 } ,
}

@inproceedings { evalperf ,
  title = { Evaluating Language Models for Efficient Code Generation } ,
  author = { Liu, Jiawei and Xie, Songrun and Wang, Junhao and Wei, Yuxiang and Ding, Yifeng and Zhang, Lingming } ,
  booktitle = { First Conference on Language Modeling } ,
  year = { 2024 } ,
  url = { https://openreview.net/forum?id=IBCBMeAhmC } ,
}

Reconnaissance

Humain
MBPP

Développer

evalplus

`EvalPlus() =>`

? Nouvelles

? À propos

Démarrage rapide

Évaluation de l'exactitude du code: humaneval (+) ou mbpp (+)

Évaluation de l'efficacité du code: EVAMPERF (* NIX uniquement)

LLM Backends

Modèles de câlins

Modèles Openai

Modèles anthropes

Modèles Google Gemini

Modèles de substratum rocheux Amazon

Documents

Citation

Reconnaissance

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express