bigcodebench Download - ดาวน์โหลดซอร์สโค้ด bigcodebench ดาวน์โหลด

bigcodebench

ซอร์สโค้ดอื่น ๆ

v0.2.1.post2

ดาวน์โหลด

BigCodeBench

- ผลกระทบ • ? ข่าว•การเริ่มต้นอย่างรวดเร็ว•การประเมินระยะไกล•รหัส LLM ที่สร้างขึ้น•? การใช้งานขั้นสูง•? การส่งผลลัพธ์•การอ้างอิง

- ผลกระทบ

BigCodeBench ถูกใช้โดยทีม LLM หลายแห่งรวมถึง:

Zhipu AI
อาลีบาบา Qwen
ลึกล้ำ
Amazon aws ai
การวิจัย AI Snowflake
การวิจัย ServiceNow
Meta AI
Coeler AI
Sakana AI

- ข่าว

[2024-10-06] เรากำลังปล่อย bigcodebench==v0.2.0 !
[2024-10-05] เราสร้าง API การดำเนินการรหัสสาธารณะบนพื้นที่ใบหน้ากอด
[2024-10-01] เราได้ประเมิน 139 รุ่นบน BigCodeBench-Hard จนถึงตอนนี้ ลองดูที่ลีดเดอร์บอร์ด!
[2024-08-19] เพื่อให้การประเมินทำซ้ำได้อย่างเต็มที่เราเพิ่มเซสชันการดำเนินการรหัสแบบเรียลไทม์ลงในกระดานผู้นำ สามารถดูได้ที่นี่
[2024-08-02] เราปล่อย bigcodebench==v0.1.9

ข่าวเพิ่มเติม :: คลิกเพื่อขยาย ::

[2024-07-18] เราประกาศชุดย่อยของ BigCodeBench, BigCodeBench-Hard ซึ่งรวมถึง 148 งานที่สอดคล้องกับงานการเขียนโปรแกรมในโลกแห่งความเป็นจริง รายละเอียดมีอยู่ในโพสต์บล็อกนี้ ชุดข้อมูลมีอยู่ที่นี่ รุ่นใหม่คือ bigcodebench==v0.1.8
[2024-06-28] เราปล่อย bigcodebench==v0.1.7
[2024-06-27] เราปล่อย bigcodebench==v0.1.6
[2024-06-19] เราเริ่ม Hugging Face BigCodeBench Board! ลีดเดอร์บอร์ดมีอยู่ที่นี่
[2024-06-18] เราเปิดตัว BigCodeBench ซึ่งเป็นเกณฑ์มาตรฐานใหม่สำหรับการสร้างรหัสด้วยงานการเขียนโปรแกรมที่เน้นการออกแบบซอฟต์แวร์ 1140 Preprint มีให้ที่นี่ แพ็คเกจ PYPI พร้อมใช้งานที่นี่พร้อมเวอร์ชัน 0.1.5

- เกี่ยวกับ

BigCodeBench

BigCodeBench เป็นเกณฑ์มาตรฐานที่ ใช้งานง่าย สำหรับการแก้ปัญหาที่ใช้งาน ได้จริง และ ท้าทาย ผ่านรหัส มันมีจุดมุ่งหมายเพื่อประเมินความสามารถในการเขียนโปรแกรมที่แท้จริงของแบบจำลองภาษาขนาดใหญ่ (LLMS) ในการตั้งค่าที่สมจริงยิ่งขึ้น เกณฑ์มาตรฐานได้รับการออกแบบมาสำหรับงานสร้างรหัสระดับฟังก์ชั่นที่เหมือนกัน แต่มีคำแนะนำที่ซับซ้อนมากขึ้นและการเรียกใช้ฟังก์ชั่นที่หลากหลาย

BigCodeBench มีสองแยก:

Complete : THES SPLIT ได้รับการออกแบบมาสำหรับการกรอกรหัสตามเอกสารที่ครอบคลุม
Instruct : การแยกใช้สำหรับโมเดลที่ปรับแต่งและแชทเท่านั้นซึ่งโมเดลจะถูกขอให้สร้างตัวอย่างโค้ดตามคำแนะนำภาษาธรรมชาติ คำแนะนำมีข้อมูลที่จำเป็นเท่านั้นและต้องการการให้เหตุผลที่ซับซ้อนมากขึ้น

ทำไมต้อง BigCodeBench?

BigCodeBench มุ่งเน้นไปที่งานอัตโนมัติงานผ่านการสร้างรหัสด้วย การเรียกใช้ฟังก์ชั่นที่หลากหลาย และ คำแนะนำที่ซับซ้อน ด้วย:

การประเมินและการจัดอันดับที่แม่นยำ : ดูกระดานผู้นำของเราสำหรับการจัดอันดับ LLM ล่าสุดก่อนและหลังการประเมินอย่างเข้มงวด
ตัวอย่างที่สร้างไว้ล่วงหน้า : BigCodeBench เร่งการวิจัยรหัสข่าวกรองโดยการจัดสรรตัวอย่าง LLM ที่จัดทำขึ้นสำหรับรุ่นต่าง ๆ-ไม่จำเป็นต้องเรียกใช้มาตรฐานที่มีราคาแพงอีกครั้ง!

เริ่มต้นอย่างรวดเร็ว

ในการเริ่มต้นโปรดตั้งค่าสภาพแวดล้อมก่อน:

 # By default, you will use the remote evaluation API to execute the output samples.
pip install bigcodebench --upgrade

# You are suggested to use `flash-attn` for generating code samples.
pip install packaging ninja
pip install flash-attn --no-build-isolation
# Note: if you have installation problem, consider using pre-built
# wheels from https://github.com/Dao-AILab/flash-attention/releases

⏬ติดตั้งเวอร์ชันทุกคืน :: คลิกเพื่อขยาย ::

 # Install to use bigcodebench.generate
pip install " git+https://github.com/bigcode-project/bigcodebench.git " --upgrade

การประเมินระยะไกล

เราใช้การถอดรหัสโลภเป็นตัวอย่างเพื่อแสดงวิธีประเมินตัวอย่างรหัสที่สร้างขึ้นผ่านระยะไกล API

คำเตือน

เพื่อความสะดวกในการสร้างเราใช้การอนุมานแบทช์โดยค่าเริ่มต้น อย่างไรก็ตามผลลัพธ์การอนุมานแบบแบทช์อาจแตกต่างกันไปจาก ขนาดแบทช์เป็นขนาด และ รุ่นไปจนถึงรุ่น อย่างน้อยสำหรับแบ็กเอนด์ VLLM หากคุณต้องการได้รับผลลัพธ์ที่กำหนดขึ้นสำหรับการถอดรหัสโลภมากขึ้นโปรดตั้งค่า --bs เป็น 1

บันทึก

การดำเนินการจากระยะไกลบน BigCodeBench-Full มักใช้เวลา 6-7 นาทีและโดยทั่วไปแล้ว BigCodeBench-Hard จะใช้เวลา 4-5 นาที

bigcodebench.evaluate 
  --model meta-llama/Meta-Llama-3.1-8B-Instruct 
  --split [complete | instruct] 
  --subset [full | hard] 
  --backend [vllm | openai | anthropic | google | mistral | hf]

ไฟล์ที่ได้ทั้งหมดจะถูกเก็บไว้ในโฟลเดอร์ชื่อ bcb_results
ตัวอย่างโค้ดที่สร้างขึ้นจะถูกเก็บไว้ในไฟล์ชื่อ [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonl
ผลการประเมินจะถูกเก็บไว้ในไฟล์ชื่อ [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.json
ผลลัพธ์ PASS@K จะถูกเก็บไว้ในไฟล์ชื่อ [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_pass_at_k.json

บันทึก

BigCodeBench ใช้พรอมต์ที่แตกต่างกันสำหรับโมเดลฐานและแชท โดยค่าเริ่มต้นจะถูกตรวจพบโดย tokenizer.chat_template เมื่อใช้ hf / vllm เป็นแบ็กเอนด์ สำหรับแบ็กเอนด์อื่น ๆ อนุญาตให้ใช้โหมดแชทเท่านั้น

ดังนั้นหากโมเดลพื้นฐานของคุณมาพร้อมกับ tokenizer.chat_template โปรดเพิ่ม --direct_completion เพื่อหลีกเลี่ยงการประเมินในโหมดแชท

เข้าถึง OpenAI APIs จาก Openai Console

 export OPENAI_API_KEY= < your_openai_api_key >

เข้าถึง APIs มานุษยวิทยาจากคอนโซลมานุษยวิทยา

 export ANTHROPIC_API_KEY= < your_anthropic_api_key >

เข้าถึง Mistral APIs จาก Mistral Console

 export MISTRAL_API_KEY= < your_mistral_api_key >

เข้าถึง Gemini APIs จาก Google AI Studio

 export GOOGLE_API_KEY= < your_google_api_key >

รหัสที่สร้างขึ้น LLM

เราแบ่งปันตัวอย่างรหัสที่สร้างไว้ล่วงหน้าจาก LLMS เราได้ประเมิน:

ดูสิ่งที่แนบมาของ v0.2.0.post3 ของเรา เรารวม sanitized_samples_calibrated.zip เพื่อความสะดวกของคุณ

- การใช้งานขั้นสูง

โปรดดูการใช้งานขั้นสูงสำหรับรายละเอียดเพิ่มเติม

- ผลการส่ง

โปรดส่งอีเมลทั้งตัวอย่างรหัสที่สร้างขึ้นและผลการดำเนินการไปยัง [email protected] หากคุณต้องการมีส่วนร่วมในแบบจำลองของคุณไปยังกระดานผู้นำ โปรดทราบว่าชื่อไฟล์ควรอยู่ในรูปแบบของ [model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonl และ [model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.json คุณสามารถยื่นปัญหาเพื่อเตือนเราว่าเราไม่ตอบกลับอีเมลของคุณภายใน 3 วัน

การอ้างอิง

 @article { zhuo2024bigcodebench ,
  title = { BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions } ,
  author = { Zhuo, Terry Yue and Vu, Minh Chien and Chim, Jenny and Hu, Han and Yu, Wenhao and Widyasari, Ratnadira and Yusuf, Imam Nur Bani and Zhan, Haolan and He, Junda and Paul, Indraneil and others } ,
  journal = { arXiv preprint arXiv:2406.15877 } ,
  year = { 2024 }
}

การรับทราบ

การประเมิน

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v0.2.1.post2
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-03-04
ขนาด 86.95KB
มาจาก Github

แอปที่เกี่ยวข้อง

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด