Unduh evalplus - Unduh Kode Sumber evalplus

`EvalPlus() =>`

? Tentang • Mulai Cepat • LLM Backends • Dokumen • Kutipan • Pengakuan

? Berita

Siapa yang Menggunakan Dataset EvalPlus? EvalPlus telah digunakan oleh berbagai tim LLM, termasuk:

Meta llama 3.1
Qwen2.5-Coder
CodeQwen 1.5
Deepseek-Coder V2
Qwen2
Snowflake Arktik
Starcoder2
Magicoder
WizardCoder

Di bawah ini melacak pembaruan penting EvalPLUS:

[2024-10-20 v0.3.1 ] : Evalplus v0.3.1 secara resmi dirilis! Sorotan: (i) Evaluasi efisiensi kode melalui evalperf, (ii) satu perintah untuk menjalankan semua: generasi + pasca-pemrosesan + evaluasi, (iii) dukungan untuk cadangan inferensi lebih lanjut seperti Google Gemini & Antropik, dll.
[2024-06-09 Pra v0.3.0 ] : Solusi dendam darat yang lebih baik untuk tugas MBPP+ (ID: 459, 102, 559). Terima kasih kepada Evalarena.
[2024-04-17 Pra v0.3.0 ] : MBPP+ ditingkatkan ke v0.2.0 dengan menghapus beberapa tugas yang rusak (399-> 378 tugas). ~ 4pp pass@1 perbaikan bisa diharapkan.

Berita sebelumnya :: Klik untuk memperluas ::

( v0.2.1 ) Anda dapat menggunakan dataset evalplus melalui BigCode-Evaluasi-Harness! Humaneval+ Oracle Fixes (32).
( v0.2.0 ) MBPP+ dirilis! Perbaikan Kontrak & Input Humaneval (0/3/9/148/114/1/2/99/28/32/35/160).
( v0.1.7 ) Rilis Papan Peringkat; Humaneval+ Kontrak dan Perbaikan Input (32/166/126/6)
( v0.1.6 ) pengaturan batas waktu yang dapat dikonfigurasi dan by-default-konservatif; Humaneval+ Contract & Ground-Truth Fixes (129/148/75/53/0/3/9/140)
( v0.1.5 ) Humaneval+ Mini dirilis untuk evaluasi ultra-cepat ketika Anda memiliki terlalu banyak sampel!
( v0.1.1 ) Mengoptimalkan pengalaman pengguna: Kecepatan evaluasi, paket PYPI, Docker, dll.
( v0.1.0 ) Humaneval+ dirilis!

? Tentang

Evalplus adalah kerangka evaluasi yang ketat untuk LLM4Code, dengan:

Humaneval+ : 80x lebih banyak tes daripada Humaneval asli!
MBPP+ : 35x lebih banyak tes daripada MBPP asli!
Evalperf : Mengevaluasi efisiensi kode yang dihasilkan LLM!
Kerangka kerja : Paket/gambar/alat kami dapat dengan mudah dan aman mengevaluasi LLM pada tolok ukur di atas.

Mengapa evalplus?

Evaluasi yang tepat : Lihat papan peringkat kami untuk peringkat LLM terbaru sebelum & setelah evaluasi yang ketat.
Coding Ketegaran : Lihatlah perbedaan skor! esp. Sebelum & setelah menggunakan tes evalplus! Lebih sedikit drop berarti lebih ketat dalam pembuatan kode; Sementara penurunan yang lebih besar berarti kode yang dihasilkan cenderung rapuh.
Efisiensi Kode : Di luar kebenaran, dataset evalperf kami mengevaluasi efisiensi kode yang dihasilkan LLM melalui tugas-tugas pengkodean pengkodean dan input pengujian.

Ingin tahu detail lebih lanjut? Baca makalah & materi kami!

Evalplus : kertas neurips'23, slide, poster, papan peringkat
Evalperf : Kertas Colm'24, poster, dokumentasi, papan peringkat

Awal yang cepat

Evaluasi kebenaran kode: humaneval (+) atau mbpp (+)

pip install --upgrade " evalplus[vllm] @ git+https://github.com/evalplus/evalplus "
# Or `pip install "evalplus[vllm]" --upgrade` for the latest stable release

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend vllm                         
                  --greedy

? ️ Eksekusi Kode Aman dalam Docker :: Klik untuk memperluas ::

 # Local generation
evalplus.codegen --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                 --dataset humaneval                    
                 --backend vllm                         
                 --greedy

# Code execution within Docker
docker run --rm --pull=always -v $( pwd ) /evalplus_results:/app ganler/evalplus:latest 
           evalplus.evaluate --dataset humaneval                                     
           --samples /app/humaneval/ise-uiuc--Magicoder-S-DS-6.7B_vllm_temp_0.0.jsonl

Evaluasi Efisiensi Kode: Evalperf (*NIX saja)

pip install --upgrade " evalplus[perf,vllm] @ git+https://github.com/evalplus/evalplus "
# Or `pip install "evalplus[perf,vllm]" --upgrade` for the latest stable release

sudo sh -c ' echo 0 > /proc/sys/kernel/perf_event_paranoid ' # Enable perf
evalplus.evalperf --model " ise-uiuc/Magicoder-S-DS-6.7B " --backend vllm

? ️ Eksekusi Kode Aman dalam Docker :: Klik untuk memperluas ::

 # Local generation
evalplus.codegen --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                 --dataset evalperf                     
                 --backend vllm                         
                 --temperature 1.0                      
                 --n-samples 100

# Code execution within Docker
sudo sh -c ' echo 0 > /proc/sys/kernel/perf_event_paranoid ' # Enable perf
docker run --cap-add PERFMON --rm --pull=always -v $( pwd ) /evalplus_results:/app ganler/evalplus:latest 
           evalplus.evalperf --samples /app/evalperf/ise-uiuc--Magicoder-S-DS-6.7B_vllm_temp_1.0.jsonl

LLM mendukung

Model Huggingface

transformers Backend:

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend hf                           
                  --greedy

Catatan

Evalplus menggunakan permintaan yang berbeda untuk model basis dan obrolan. Secara default dideteksi oleh tokenizer.chat_template saat menggunakan hf / vllm sebagai backend. Untuk backend lainnya, hanya mode obrolan yang diizinkan.

Oleh karena itu, jika model dasar Anda dilengkapi dengan tokenizer.chat_template , silakan tambahkan --force-base-prompt untuk menghindari dievaluasi dalam mode obrolan.

Aktifkan perhatian flash 2 :: klik untuk memperluas ::

 # Install Flash Attention 2
pip install packaging ninja
pip install flash-attn --no-build-isolation
# Note: if you have installation problem, consider using pre-built
# wheels from https://github.com/Dao-AILab/flash-attention/releases

# Run evaluation with FA2
evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B "         
                  --dataset [humaneval | mbpp]                     
                  --backend hf                                   
                  --attn-implementation [flash_attention_2 | sdpa] 
                  --greedy

vllm Backend:

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend vllm                         
                  --tp [TENSOR_PARALLEL_SIZE]            
                  --greedy

Server Kompatibel openai (misalnya, VLLM):

 # OpenAI models
export OPENAI_API_KEY= " {KEY} " # https://platform.openai.com/settings/organization/api-keys
evalplus.evaluate --model " gpt-4o-2024-08-06 "  
                  --dataset [humaneval | mbpp]   
                  --backend openai --greedy

# DeepSeek
export OPENAI_API_KEY= " {KEY} " # https://platform.deepseek.com/api_keys
evalplus.evaluate --model " deepseek-chat "              
                  --dataset [humaneval | mbpp]           
                  --base-url https://api.deepseek.com  
                  --backend openai --greedy

# Grok
export OPENAI_API_KEY= " {KEY} " # https://console.x.ai/
evalplus.evaluate --model " grok-beta "             
                  --dataset [humaneval | mbpp]      
                  --base-url https://api.x.ai/v1  
                  --backend openai --greedy

# vLLM server
# First, launch a vLLM server: https://docs.vllm.ai/en/latest/serving/deploying_with_docker.html
evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --base-url http://localhost:8000/v1    
                  --backend openai --greedy

Model Openai

Akses Openai API dari Openai Console

 export OPENAI_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " gpt-4o "            
                  --dataset [humaneval | mbpp]  
                  --backend openai            
                  --greedy

Model antropik

Akses API Antropik dari Konsol Antropik

 export ANTHROPIC_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " claude-3-haiku-20240307 " 
                  --dataset [humaneval | mbpp]        
                  --backend anthropic               
                  --greedy

Model Google Gemini

Akses Gemini API dari Google AI Studio

 export GOOGLE_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " gemini-1.5-pro "    
                  --dataset [humaneval | mbpp]  
                  --backend google            
                  --greedy

Model Amazon Bedrock

Amazon Bedrock

 export BEDROCK_ROLE_ARN= " [BEDROCK_ROLE_ARN] "
evalplus.evaluate --model " anthropic.claude-3-5-sonnet-20241022-v2:0 " 
                  --dataset [humaneval | mbpp]                          
                  --backend bedrock                                   
                  --greedy

Anda dapat checkout generasi dan hasil di evalplus_results/[humaneval|mbpp]/

⏬ Menggunakan evalplus sebagai repo lokal? :: klik untuk memperluas ::

git clone https://github.com/evalplus/evalplus.git
cd evalplus
export PYTHONPATH= $PYTHONPATH : $( pwd )
pip install -r requirements.txt

Dokumen

Untuk mempelajari lebih lanjut tentang cara menggunakan evalplus, silakan merujuk ke:

Perintah Evalplus
Evalperf
Eksekusi program

Kutipan

 @inproceedings { evalplus ,
  title = { Is Your Code Generated by Chat{GPT} Really Correct? Rigorous Evaluation of Large Language Models for Code Generation } ,
  author = { Liu, Jiawei and Xia, Chunqiu Steven and Wang, Yuyao and Zhang, Lingming } ,
  booktitle = { Thirty-seventh Conference on Neural Information Processing Systems } ,
  year = { 2023 } ,
  url = { https://openreview.net/forum?id=1qvx610Cu7 } ,
}

@inproceedings { evalperf ,
  title = { Evaluating Language Models for Efficient Code Generation } ,
  author = { Liu, Jiawei and Xie, Songrun and Wang, Junhao and Wei, Yuxiang and Ding, Yifeng and Zhang, Lingming } ,
  booktitle = { First Conference on Language Modeling } ,
  year = { 2024 } ,
  url = { https://openreview.net/forum?id=IBCBMeAhmC } ,
}

Pengakuan

Humaneval
Mbpp

Memperluas

evalplus

`EvalPlus() =>`

? Berita

? Tentang

Awal yang cepat

Evaluasi kebenaran kode: humaneval (+) atau mbpp (+)

Evaluasi Efisiensi Kode: Evalperf (*NIX saja)

LLM mendukung

Model Huggingface

Model Openai

Model antropik

Model Google Gemini

Model Amazon Bedrock

Dokumen

Kutipan

Pengakuan

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express