ดาวน์โหลด evalplus - การดาวน์โหลดซอร์สโค้ด evalplus

`EvalPlus() =>`

เกี่ยวกับ•การเริ่มต้นอย่างรวดเร็ว•แบ็กเอนด์ LLM •เอกสาร•การอ้างอิง•การรับทราบ

- ข่าว

ใครใช้ชุดข้อมูล EvalPlus EvalPlus ถูกใช้โดยทีม LLM ต่างๆรวมถึง:

Meta Llama 3.1
Qwen2.5-coder
codeqwen 1.5
Deepseek-Coder v2
Qwen2
เกล็ดหิมะอาร์กติก
StarCoder2
เครื่องมายากล
WizardCoder

ด้านล่างติดตามการอัปเดตที่โดดเด่นของ EvalPlus:

[2024-10-20 v0.3.1 ] : EvalPlus v0.3.1 ได้รับการปล่อยตัวอย่างเป็นทางการ! ไฮไลต์: (i) การประเมินประสิทธิภาพของรหัสผ่าน Evalperf, (ii) คำสั่งหนึ่งคำสั่งที่จะเรียกใช้ทั้งหมด: Generation + Post-Processing + Evaluation, (iii) สนับสนุนแบ็กเอนด์การอนุมานเพิ่มเติมเช่น Google Gemini และมานุษยวิทยา ฯลฯ
[2024-06-09 PRE v0.3.0 ] : ปรับปรุงโซลูชันการทำจริงพื้นดินสำหรับ MBPP+ งาน (IDS: 459, 102, 559) ขอบคุณ Evalarena
[2024-04-17 PRE v0.3.0 ] : MBPP+ ได้รับการอัพเกรดเป็น v0.2.0 โดยการลบงานที่เสีย (399-> 378 งาน) ~ 4pp Pass@1 สามารถคาดหวังการปรับปรุงได้

ข่าวก่อนหน้านี้ :: คลิกเพื่อขยาย ::

( v0.2.1 ) คุณสามารถใช้ชุดข้อมูล EvalPlus ผ่านทาง BigCode-Evaluation-Harness! Humaneval+ Oracle Fixes (32)
( v0.2.0 ) MBPP+ เปิดตัว! การแก้ไขสัญญาและอินพุต Humaneval (0/3/9/148/114/1/2/99/28/32/35/160)
( v0.1.7 ) การเปิดตัวกระดานผู้นำ; Humaneval+ สัญญาและการแก้ไขอินพุต (32/166/126/6)
( v0.1.6 ) การตั้งค่าการหมดเวลาการหมดเวลาแบบกำหนดเวลาและการอนุรักษ์ Humaneval+ Contract & Ground-Truth Fixes (129/148/75/53/0/3/9/140)
( v0.1.5 ) Humaneval+ Mini ได้รับการปล่อยตัวเพื่อการประเมินผลเร็วเป็นพิเศษเมื่อคุณมีตัวอย่างมากเกินไป!
( v0.1.1 ) การเพิ่มประสิทธิภาพประสบการณ์ของผู้ใช้: ความเร็วในการประเมิน, แพ็คเกจ PYPI, Docker ฯลฯ
( v0.1.0 ) Humaneval+ ได้รับการปล่อยตัว!

- เกี่ยวกับ

EvalPlus เป็นกรอบการประเมินที่เข้มงวดสำหรับ LLM4Code ด้วย:

Humaneval+ : 80x การทดสอบมากกว่า Humaneval ดั้งเดิม!
MBPP+ : 35X การทดสอบมากกว่า MBPP ดั้งเดิม!
Evalperf : การประเมินประสิทธิภาพของรหัสที่สร้างขึ้น LLM!
เฟรมเวิร์ก : แพ็คเกจ/รูปภาพ/เครื่องมือของเราสามารถประเมิน LLMS ได้อย่างง่ายดายและปลอดภัยบนมาตรฐานด้านบน

ทำไม EvalPlus?

การประเมินที่แม่นยำ : ดูกระดานผู้นำของเราสำหรับการจัดอันดับ LLM ล่าสุดก่อนและหลังการประเมินอย่างเข้มงวด
การเข้ารหัสความเข้มงวด : ดูความแตกต่างของคะแนน! esp. ก่อนและหลังใช้การทดสอบ EvalPlus! การลดลงน้อยลงหมายถึงความเข้มงวดมากขึ้นในการสร้างรหัส ในขณะที่การลดลงที่ใหญ่กว่าหมายถึงรหัสที่สร้างขึ้นมีแนวโน้มที่จะเปราะบาง
ประสิทธิภาพของรหัส : นอกเหนือจากความถูกต้องชุดข้อมูล EvalPERF ของเราประเมินประสิทธิภาพของรหัสที่สร้างขึ้น LLM ผ่านงานการเข้ารหัสการออกกำลังกายและการทดสอบอินพุต

ต้องการทราบรายละเอียดเพิ่มเติมหรือไม่? อ่านเอกสารและวัสดุของเรา!

EvalPlus : Neurips'23 Paper, สไลด์, โปสเตอร์, ลีดเดอร์บอร์ด
Evalperf : Colm'24 Paper, โปสเตอร์, เอกสาร, ลีดเดอร์บอร์ด

เริ่มต้นอย่างรวดเร็ว

การประเมินความถูกต้องของรหัส: HumanEval (+) หรือ MBPP (+)

pip install --upgrade " evalplus[vllm] @ git+https://github.com/evalplus/evalplus "
# Or `pip install "evalplus[vllm]" --upgrade` for the latest stable release

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend vllm                         
                  --greedy

️การดำเนินการรหัสที่ปลอดภัยภายใน Docker :: คลิกเพื่อขยาย ::

 # Local generation
evalplus.codegen --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                 --dataset humaneval                    
                 --backend vllm                         
                 --greedy

# Code execution within Docker
docker run --rm --pull=always -v $( pwd ) /evalplus_results:/app ganler/evalplus:latest 
           evalplus.evaluate --dataset humaneval                                     
           --samples /app/humaneval/ise-uiuc--Magicoder-S-DS-6.7B_vllm_temp_0.0.jsonl

การประเมินประสิทธิภาพของรหัส: evalperf (*nix เท่านั้น)

pip install --upgrade " evalplus[perf,vllm] @ git+https://github.com/evalplus/evalplus "
# Or `pip install "evalplus[perf,vllm]" --upgrade` for the latest stable release

sudo sh -c ' echo 0 > /proc/sys/kernel/perf_event_paranoid ' # Enable perf
evalplus.evalperf --model " ise-uiuc/Magicoder-S-DS-6.7B " --backend vllm

️การดำเนินการรหัสที่ปลอดภัยภายใน Docker :: คลิกเพื่อขยาย ::

 # Local generation
evalplus.codegen --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                 --dataset evalperf                     
                 --backend vllm                         
                 --temperature 1.0                      
                 --n-samples 100

# Code execution within Docker
sudo sh -c ' echo 0 > /proc/sys/kernel/perf_event_paranoid ' # Enable perf
docker run --cap-add PERFMON --rm --pull=always -v $( pwd ) /evalplus_results:/app ganler/evalplus:latest 
           evalplus.evalperf --samples /app/evalperf/ise-uiuc--Magicoder-S-DS-6.7B_vllm_temp_1.0.jsonl

แบ็กเอนด์ LLM

HuggingFace Models

แบ็กเอนด์ transformers :

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend hf                           
                  --greedy

บันทึก

EvalPlus ใช้พรอมต์ที่แตกต่างกันสำหรับโมเดลฐานและแชท โดยค่าเริ่มต้นจะถูกตรวจพบโดย tokenizer.chat_template เมื่อใช้ hf / vllm เป็นแบ็กเอนด์ สำหรับแบ็กเอนด์อื่น ๆ อนุญาตให้ใช้โหมดแชทเท่านั้น

ดังนั้นหากรุ่นพื้นฐานของคุณมาพร้อมกับ tokenizer.chat_template โปรดเพิ่ม --force-base-prompt เพื่อหลีกเลี่ยงการประเมินในโหมดแชท

เปิดใช้งาน Flash Attention 2 :: คลิกเพื่อขยาย ::

 # Install Flash Attention 2
pip install packaging ninja
pip install flash-attn --no-build-isolation
# Note: if you have installation problem, consider using pre-built
# wheels from https://github.com/Dao-AILab/flash-attention/releases

# Run evaluation with FA2
evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B "         
                  --dataset [humaneval | mbpp]                     
                  --backend hf                                   
                  --attn-implementation [flash_attention_2 | sdpa] 
                  --greedy

แบ็กเอนด์ vllm :

evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --backend vllm                         
                  --tp [TENSOR_PARALLEL_SIZE]            
                  --greedy

เซิร์ฟเวอร์ที่เข้ากันได้ openai (เช่น VLLM):

 # OpenAI models
export OPENAI_API_KEY= " {KEY} " # https://platform.openai.com/settings/organization/api-keys
evalplus.evaluate --model " gpt-4o-2024-08-06 "  
                  --dataset [humaneval | mbpp]   
                  --backend openai --greedy

# DeepSeek
export OPENAI_API_KEY= " {KEY} " # https://platform.deepseek.com/api_keys
evalplus.evaluate --model " deepseek-chat "              
                  --dataset [humaneval | mbpp]           
                  --base-url https://api.deepseek.com  
                  --backend openai --greedy

# Grok
export OPENAI_API_KEY= " {KEY} " # https://console.x.ai/
evalplus.evaluate --model " grok-beta "             
                  --dataset [humaneval | mbpp]      
                  --base-url https://api.x.ai/v1  
                  --backend openai --greedy

# vLLM server
# First, launch a vLLM server: https://docs.vllm.ai/en/latest/serving/deploying_with_docker.html
evalplus.evaluate --model " ise-uiuc/Magicoder-S-DS-6.7B " 
                  --dataset [humaneval | mbpp]             
                  --base-url http://localhost:8000/v1    
                  --backend openai --greedy

รุ่น Openai

เข้าถึง OpenAI APIs จาก Openai Console

 export OPENAI_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " gpt-4o "            
                  --dataset [humaneval | mbpp]  
                  --backend openai            
                  --greedy

นางแบบมานุษยวิทยา

เข้าถึง APIs มานุษยวิทยาจากคอนโซลมานุษยวิทยา

 export ANTHROPIC_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " claude-3-haiku-20240307 " 
                  --dataset [humaneval | mbpp]        
                  --backend anthropic               
                  --greedy

รุ่น Google Gemini

เข้าถึง Gemini APIs จาก Google AI Studio

 export GOOGLE_API_KEY= " [YOUR_API_KEY] "
evalplus.evaluate --model " gemini-1.5-pro "    
                  --dataset [humaneval | mbpp]  
                  --backend google            
                  --greedy

นางแบบอเมซอน

อเมซอน

 export BEDROCK_ROLE_ARN= " [BEDROCK_ROLE_ARN] "
evalplus.evaluate --model " anthropic.claude-3-5-sonnet-20241022-v2:0 " 
                  --dataset [humaneval | mbpp]                          
                  --backend bedrock                                   
                  --greedy

คุณสามารถชำระเงินในการสร้างและผลลัพธ์ที่ evalplus_results/[humaneval|mbpp]/

⏬การใช้ EvalPlus เป็น repo ท้องถิ่น? :: คลิกเพื่อขยาย ::

git clone https://github.com/evalplus/evalplus.git
cd evalplus
export PYTHONPATH= $PYTHONPATH : $( pwd )
pip install -r requirements.txt

เอกสาร

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการใช้ EvalPlus โปรดดูที่:

คำสั่ง evalplus
ผู้ประเมินผล
การดำเนินการโปรแกรม

การอ้างอิง

 @inproceedings { evalplus ,
  title = { Is Your Code Generated by Chat{GPT} Really Correct? Rigorous Evaluation of Large Language Models for Code Generation } ,
  author = { Liu, Jiawei and Xia, Chunqiu Steven and Wang, Yuyao and Zhang, Lingming } ,
  booktitle = { Thirty-seventh Conference on Neural Information Processing Systems } ,
  year = { 2023 } ,
  url = { https://openreview.net/forum?id=1qvx610Cu7 } ,
}

@inproceedings { evalperf ,
  title = { Evaluating Language Models for Efficient Code Generation } ,
  author = { Liu, Jiawei and Xie, Songrun and Wang, Junhao and Wei, Yuxiang and Ding, Yifeng and Zhang, Lingming } ,
  booktitle = { First Conference on Language Modeling } ,
  year = { 2024 } ,
  url = { https://openreview.net/forum?id=IBCBMeAhmC } ,
}

การรับทราบ

เกี่ยวกับมนุษย์
MBPP

ขยาย

evalplus

`EvalPlus() =>`

- ข่าว

- เกี่ยวกับ

เริ่มต้นอย่างรวดเร็ว

การประเมินความถูกต้องของรหัส: HumanEval (+) หรือ MBPP (+)

การประเมินประสิทธิภาพของรหัส: evalperf (*nix เท่านั้น)

แบ็กเอนด์ LLM

HuggingFace Models

รุ่น Openai

นางแบบมานุษยวิทยา

รุ่น Google Gemini

นางแบบอเมซอน

เอกสาร

การอ้างอิง

การรับทราบ

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express