bigcodebench Download - Unduh Kode Sumber bigcodebench

bigcodebench

Kode sumber lainnya

v0.2.1.post2

Unduh

BigCodeBench

? Dampak • ? Berita • Mulai Cepat • Evaluasi jarak jauh • Kode yang dihasilkan LLM •? Penggunaan lanjutan •? Pengajuan Hasil • Kutipan

? Dampak

BigCodeBench telah digunakan oleh banyak tim LLM termasuk:

Zhipu AI
Alibaba Qwen
Deepseek
Amazon AWS AI
Penelitian AI Snowflake
Penelitian ServiceNow
Meta AI
Cohere ai
Sakana Ai

? Berita

[2024-10-06] Kami merilis bigcodebench==v0.2.0 !
[2024-10-05] Kami membuat API eksekusi kode publik di ruang wajah yang memeluk.
[2024-10-01] Kami telah mengevaluasi 139 model di BigCodeBench-Hard sejauh ini. Lihatlah papan peringkat!
[2024-08-19] Untuk membuat evaluasi sepenuhnya dapat direproduksi, kami menambahkan sesi eksekusi kode real-time ke papan peringkat. Itu bisa dilihat di sini.
[2024-08-02] Kami merilis bigcodebench==v0.1.9 .

Berita lebih lanjut :: Klik untuk memperluas ::

[2024-07-18] Kami mengumumkan subset BigCodeBench, BigCodeBench-Hard, yang mencakup 148 tugas yang lebih selaras dengan tugas pemrograman dunia nyata. Detailnya tersedia di posting blog ini. Dataset tersedia di sini. Rilis baru adalah bigcodebench==v0.1.8 .
[2024-06-28] Kami merilis bigcodebench==v0.1.7 .
[2024-06-27] Kami merilis bigcodebench==v0.1.6 .
[2024-06-19] Kami memulai papan pemeluk BigCodebench Leaderboard! Papan peringkat tersedia di sini.
[2024-06-18] Kami merilis BigCodeBench, tolok ukur baru untuk pembuatan kode dengan 1140 tugas pemrograman yang berorientasi pada rekayasa perangkat lunak. Pracetak tersedia di sini. Paket PYPI tersedia di sini dengan versi 0.1.5 .

? Tentang

BigCodeBench

BigCodeBench adalah tolok ukur yang mudah digunakan untuk menyelesaikan tugas-tugas praktis dan menantang melalui kode. Ini bertujuan untuk mengevaluasi kemampuan pemrograman sebenarnya dari model bahasa besar (LLM) dalam pengaturan yang lebih realistis. Benchmark ini dirancang untuk tugas-tugas pembuatan kode tingkat fungsi seperti manusia, tetapi dengan instruksi yang jauh lebih kompleks dan panggilan fungsi yang beragam.

Ada dua pemisahan di BigCodeBench:

Complete : Perpecahan ini dirancang untuk penyelesaian kode berdasarkan Docstrings komprehensif.
Instruct : Split berfungsi untuk instruksi yang disesuaikan dan model obrolan saja, di mana model diminta untuk menghasilkan cuplikan kode berdasarkan instruksi bahasa alami. Instruksi hanya berisi informasi yang diperlukan, dan membutuhkan penalaran yang lebih kompleks.

Mengapa BigCodeBench?

BigCodeBench berfokus pada otomatisasi tugas melalui pembuatan kode dengan beragam panggilan fungsi dan instruksi yang kompleks , dengan:

Evaluasi & Peringkat yang Tepat : Lihat Papan Peringkat kami untuk peringkat LLM terbaru sebelum & setelah evaluasi yang ketat.
Sampel yang dihasilkan sebelumnya : BigCodeBench mempercepat penelitian intelijen kode dengan sampel yang dihasilkan LLM open-sourcing untuk berbagai model-tidak perlu menjalankan kembali tolok ukur mahal!

Awal yang cepat

Untuk memulai, silakan siapkan lingkungan pertama:

 # By default, you will use the remote evaluation API to execute the output samples.
pip install bigcodebench --upgrade

# You are suggested to use `flash-attn` for generating code samples.
pip install packaging ninja
pip install flash-attn --no-build-isolation
# Note: if you have installation problem, consider using pre-built
# wheels from https://github.com/Dao-AILab/flash-attention/releases

⏬ Instal Nightly Version :: Klik untuk memperluas ::

 # Install to use bigcodebench.generate
pip install " git+https://github.com/bigcode-project/bigcodebench.git " --upgrade

Evaluasi jarak jauh

Kami menggunakan decoding serakah sebagai contoh untuk menunjukkan cara mengevaluasi sampel kode yang dihasilkan melalui API jarak jauh.

Peringatan

Untuk memudahkan generasi, kami menggunakan inferensi batch secara default. Namun, hasil inferensi batch dapat bervariasi dari ukuran batch ke ukuran batch dan versi ke versi , setidaknya untuk backend VLLM. Jika Anda ingin mendapatkan hasil yang lebih deterministik untuk decoding serakah, silakan atur --bs ke 1 .

Catatan

Dijalankan dari jarak jauh di BigCodeBench-Full biasanya memakan waktu 6-7 menit, dan di BigCodeBench-Hard biasanya memakan waktu 4-5 menit.

bigcodebench.evaluate 
  --model meta-llama/Meta-Llama-3.1-8B-Instruct 
  --split [complete | instruct] 
  --subset [full | hard] 
  --backend [vllm | openai | anthropic | google | mistral | hf]

Semua file yang dihasilkan akan disimpan dalam folder bernama bcb_results .
Sampel kode yang dihasilkan akan disimpan dalam file bernama [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonl .
Hasil evaluasi akan disimpan dalam file bernama [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.json .
Hasil pass@k akan disimpan dalam file bernama [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_pass_at_k.json .

Catatan

BigCodeBench menggunakan permintaan yang berbeda untuk model pangkalan dan obrolan. Secara default dideteksi oleh tokenizer.chat_template saat menggunakan hf / vllm sebagai backend. Untuk backend lainnya, hanya mode obrolan yang diizinkan.

Oleh karena itu, jika model dasar Anda dilengkapi dengan tokenizer.chat_template , silakan tambahkan --direct_completion untuk menghindari dievaluasi dalam mode obrolan.

Akses Openai API dari Openai Console

 export OPENAI_API_KEY= < your_openai_api_key >

Akses API Antropik dari Konsol Antropik

 export ANTHROPIC_API_KEY= < your_anthropic_api_key >

Akses API Mistral dari Mistral Console

 export MISTRAL_API_KEY= < your_mistral_api_key >

Akses Gemini API dari Google AI Studio

 export GOOGLE_API_KEY= < your_google_api_key >

Kode yang dihasilkan LLM

Kami berbagi sampel kode yang telah dihasilkan dari LLMS yang telah kami evaluasi:

Lihat lampiran V0.2.0.post3 kami. Kami menyertakan sanitized_samples_calibrated.zip untuk kenyamanan Anda.

? Penggunaan lanjutan

Silakan merujuk ke penggunaan lanjutan untuk lebih jelasnya.

? Pengajuan Hasil

Silakan kirim email ke sampel kode yang dihasilkan dan hasil eksekusi ke [email protected] jika Anda ingin menyumbangkan model Anda ke papan peringkat. Perhatikan bahwa nama file harus dalam format [model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonl [model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.json . Anda dapat mengajukan masalah untuk mengingatkan kami jika kami tidak menanggapi email Anda dalam waktu 3 hari.

Kutipan

 @article { zhuo2024bigcodebench ,
  title = { BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions } ,
  author = { Zhuo, Terry Yue and Vu, Minh Chien and Chim, Jenny and Hu, Han and Yu, Wenhao and Widyasari, Ratnadira and Yusuf, Imam Nur Bani and Zhan, Haolan and He, Junda and Paul, Indraneil and others } ,
  journal = { arXiv preprint arXiv:2406.15877 } ,
  year = { 2024 }
}

Pengakuan

Evalplus

Memperluas

Informasi Tambahan

Versi v0.2.1.post2
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-04
ukuran 86.95KB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua