evalplus download - evalplus Source Code Download

`EvalPlus() =>`

? Über • Schnellstart • LLM -Backends • Dokumente • Zitat • Bestätigung

? Nachricht

Wer verwendet Evalplus -Datensätze? Evalplus wurde von verschiedenen LLM -Teams verwendet, darunter:

Meta Lama 3.1
QWEN2.5-CODER
CODEQWEN 1.5
Deepseek-Coder V2
Qwen2
Schneeflocke Arktis
STARCODER2
Magicoder
Assistentcoder

Nachfolgend verfolgt die bemerkenswerten Updates von EvalPlus:

[2024-10-20 v0.3.1 ] : Evalplus v0.3.1 wird offiziell veröffentlicht! Highlights: (i) Bewertung der Code-Effizienz über Evalerf, (ii) Ein Befehl zum Ausführen von All: Generation + Post-Processing + Evaluation, (iii) Unterstützung für mehr Inferenz-Backends wie Google Gemini & Anthropic usw.
[2024-06-09 PRE v0.3.0 ] : Verbesserte Bodenwahrheitslösungen für MBPP+ -Tasks (IDS: 459, 102, 559). Vielen Dank an Evalarena.
[2024-04-17 Pre v0.3.0 ] : MBPP+ wird durch Entfernen einiger zerbrochener Aufgaben (399-> 378 Aufgaben) auf v0.2.0 aktualisiert. ~ 4PP -Pass@1 -Verbesserung ist zu erwarten.

Frühere Nachrichten :: Klicken Sie auf Erweiterung ::

( v0.2.1 ) Sie können Evalplus-Datensätze über BigCode-Evaluation-HARDES verwenden! Humaneval+ Oracle Fixes (32).
( v0.2.0 ) MBPP+ wird veröffentlicht! Humaneralvertrags- und Eingabefixes (0/3/9/148/114/1/2/99/28/32/35/160).
( v0.1.7 ) RAUPHARBOARD -Release; Humaneval+ Vertrags- und Input -Korrekturen (32/166/126/6)
( v0.1.6 ) Konfigurierbare und stellvertretende Zeitüberschreitungseinstellungen; Humaneval+ Contract & Ground-Truth Fixes (129/148/75/53/0/3/9/140)
( v0.1.5 ) Humaneval+ Mini wird für die ultraschnelle Bewertung freigesetzt, wenn Sie zu viele Proben haben!
( v0.1.1 ) Optimierung der Benutzererfahrungen: Bewertungsgeschwindigkeit, PYPI -Paket, Docker usw.
( v0.1.0 ) Humaneval+ wird veröffentlicht!

? Um

Evalplus ist ein strenger Bewertungsrahmen für LLM4Code mit:

Humaneval+ : 80x mehr Tests als der ursprüngliche Humaner!
MBPP+ : 35x mehr Tests als das ursprüngliche MBPP!
Evalerf : Bewertung der Effizienz des LLM-generierten Codes!
Framework : Unsere Pakete/Bilder/Tools können LLMs auf den oben genannten Benchmarks einfach und sicher bewerten.

Warum evalplus?

Genauige Bewertung : In unserer Rangliste finden Sie vor und nach der strengen Bewertung.
Codierung streng : Sehen Sie sich die Punktzahlunterschiede an! Esp. Vor und nach der Verwendung von Evalplus -Tests! Weniger Tropfen bedeutet mehr strenger in der Codegenerierung; Während ein größerer Tropfen bedeutet, dass der generierte Code tendenziell zerbrechlich ist.
Code-Effizienz : Über die Korrektheit hinaus bewertet unser EvalerFF-Datensatz die Effizienz des LLM-generierten Codes über leistungsstarke Codierungsaufgaben und Testeingänge.

Möchten Sie weitere Details wissen? Lesen Sie unsere Papiere und Materialien!

Evalplus : Neurips'23 Papier, Objektträger, Poster, Rangliste
EvalerF : Colm'24 Papier, Poster, Dokumentation, Rangliste

Schneller Start

Code -Korrektheit Evaluierung: Humaneral (+) oder MBPP (+)

pip install --upgrade " evalplus[vllm] @ git+https://github.com/evalplus/evalplus "
# Or `pip install "evalplus[vllm]" --upgrade` for the latest stable release

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend vllm                         
                  --greedy

? ️ Safe Code -Ausführung in Docker :: Klicken Sie auf Erweiterung ::

 # Local generation
evalplus.codegen --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                 --dataset humaneval                    
                 --backend vllm                         
                 --greedy

# Code execution within Docker
docker run --rm --pull=always -v $( pwd ) /evalplus_results:/app ganler/evalplus:latest 
           evalplus.evaluate --dataset humaneval                                     
           --samples /app/humaneval/ise-uiuc--Magicoder-S-DS-6.7B_vllm_temp_0.0.jsonl

Bewertung der Codeeffizienz: EvalerF (nur Nix)

pip install --upgrade " evalplus[perf,vllm] @ git+https://github.com/evalplus/evalplus "
# Or `pip install "evalplus[perf,vllm]" --upgrade` for the latest stable release

sudo sh -c ' echo 0 > /proc/sys/kernel/perf_event_paranoid ' # Enable perf
evalplus.evalperf --model " ise-uiuc/Magicoder-S-DS-6.7B " --backend vllm

? ️ Safe Code -Ausführung in Docker :: Klicken Sie auf Erweiterung ::

 # Local generation
evalplus.codegen --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                 --dataset evalperf                     
                 --backend vllm                         
                 --temperature 1.0                      
                 --n-samples 100

# Code execution within Docker
sudo sh -c ' echo 0 > /proc/sys/kernel/perf_event_paranoid ' # Enable perf
docker run --cap-add PERFMON --rm --pull=always -v $( pwd ) /evalplus_results:/app ganler/evalplus:latest 
           evalplus.evalperf --samples /app/evalperf/ise-uiuc--Magicoder-S-DS-6.7B_vllm_temp_1.0.jsonl

LLM -Backends

Umarmungsgesichtsmodelle

transformers Backend:

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend hf                           
                  --greedy

Notiz

Evalplus verwendet verschiedene Eingabeaufforderungen für Basis- und Chat -Modelle. Standardmäßig wird es von tokenizer.chat_template erkannt, wenn hf / vllm als Backend verwendet wird. Für andere Backends ist nur der Chat -Modus zulässig.

Wenn Ihre Basismodelle mit einem tokenizer.chat_template ausgestattet sind, fügen Sie bitte --force-base-prompt hinzu, um nicht in einem Chat-Modus bewertet zu werden.

Aktivieren Sie die Aufmerksamkeit von Flash 2 :: Klicken Sie hier, um zu erweitern ::

 # Install Flash Attention 2
pip install packaging ninja
pip install flash-attn --no-build-isolation
# Note: if you have installation problem, consider using pre-built
# wheels from https://github.com/Dao-AILab/flash-attention/releases

# Run evaluation with FA2
evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B "         
                  --dataset [humaneval | mbpp]                     
                  --backend hf                                   
                  --attn-implementation [flash_attention_2 | sdpa] 
                  --greedy

vllm Backend:

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend vllm                         
                  --tp [TENSOR_PARALLEL_SIZE]            
                  --greedy

openai -kompatible Server (z. B. VLLM):

 # OpenAI models
export OPENAI_API_KEY= " {KEY} " # https://platform.openai.com/settings/organization/api-keys
evalplus.evaluate --model " gpt-4o-2024-08-06 "  
                  --dataset [humaneval | mbpp]   
                  --backend openai --greedy

# DeepSeek
export OPENAI_API_KEY= " {KEY} " # https://platform.deepseek.com/api_keys
evalplus.evaluate --model " deepseek-chat "              
                  --dataset [humaneval | mbpp]           
                  --base-url https://api.deepseek.com  
                  --backend openai --greedy

# Grok
export OPENAI_API_KEY= " {KEY} " # https://console.x.ai/
evalplus.evaluate --model " grok-beta "             
                  --dataset [humaneval | mbpp]      
                  --base-url https://api.x.ai/v1  
                  --backend openai --greedy

# vLLM server
# First, launch a vLLM server: https://docs.vllm.ai/en/latest/serving/deploying_with_docker.html
evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --base-url http://localhost:8000/v1    
                  --backend openai --greedy

OpenAI -Modelle

Zugang zu OpenAI -APIs von Openai Console

 export OPENAI_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " gpt-4o "            
                  --dataset [humaneval | mbpp]  
                  --backend openai            
                  --greedy

Anthropische Modelle

Zugang zu anthropischen APIs von anthropischer Konsole

 export ANTHROPIC_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " claude-3-haiku-20240307 " 
                  --dataset [humaneval | mbpp]        
                  --backend anthropic               
                  --greedy

Google Gemini -Modelle

Zugriff auf Gemini -APIs von Google AI Studio

 export GOOGLE_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " gemini-1.5-pro "    
                  --dataset [humaneval | mbpp]  
                  --backend google            
                  --greedy

Amazonas -Grundgesteinsmodelle

Amazonas Grundgestein

 export BEDROCK_ROLE_ARN= " [BEDROCK_ROLE_ARN] "
evalplus.evaluate --model " anthropic.claude-3-5-sonnet-20241022-v2:0 " 
                  --dataset [humaneval | mbpp]                          
                  --backend bedrock                                   
                  --greedy

Sie können die Erzeugung und die Ergebnisse bei evalplus_results/[humaneval|mbpp]/ auschecken

⏬ Verwenden von Evalplus als lokales Repo? :: Klicken Sie hier, um zu erweitern ::

git clone https://github.com/evalplus/evalplus.git
cd evalplus
export PYTHONPATH= $PYTHONPATH : $( pwd )
pip install -r requirements.txt

Unterlagen

Um mehr über die Verwendung von Evalplus zu erfahren, finden Sie unter:

Evalplus -Befehle
Evalerf
Programmausführung

Zitat

 @inproceedings { evalplus ,
  title = { Is Your Code Generated by Chat{GPT} Really Correct? Rigorous Evaluation of Large Language Models for Code Generation } ,
  author = { Liu, Jiawei and Xia, Chunqiu Steven and Wang, Yuyao and Zhang, Lingming } ,
  booktitle = { Thirty-seventh Conference on Neural Information Processing Systems } ,
  year = { 2023 } ,
  url = { https://openreview.net/forum?id=1qvx610Cu7 } ,
}

@inproceedings { evalperf ,
  title = { Evaluating Language Models for Efficient Code Generation } ,
  author = { Liu, Jiawei and Xie, Songrun and Wang, Junhao and Wei, Yuxiang and Ding, Yifeng and Zhang, Lingming } ,
  booktitle = { First Conference on Language Modeling } ,
  year = { 2024 } ,
  url = { https://openreview.net/forum?id=IBCBMeAhmC } ,
}

Anerkennung

Humaneral
MBPP

Expandieren

evalplus

`EvalPlus() =>`

? Nachricht

? Um

Schneller Start

Code -Korrektheit Evaluierung: Humaneral (+) oder MBPP (+)

Bewertung der Codeeffizienz: EvalerF (nur Nix)

LLM -Backends

Umarmungsgesichtsmodelle

OpenAI -Modelle

Anthropische Modelle

Google Gemini -Modelle

Amazonas -Grundgesteinsmodelle

Unterlagen

Zitat

Anerkennung

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express