تنزيل bigcodebench - تنزيل رمز مصدر bigcodebench

bigcodebench

شفرة المصدر الأخرى

v0.2.1.post2

تنزيل

BigCodeBench

؟ تأثير • ؟ الأخبار • البداية السريعة • التقييم عن بُعد • رمز LLM الذي تم إنشاؤه بواسطة LLM •؟ الاستخدام المتقدم •؟ تقديم النتيجة • الاقتباس

؟ تأثير

تم استخدام BigCodeBench من قبل العديد من فرق LLM بما في ذلك:

zhipu ai
علي بابا Qwen
ديبسيك
Amazon AWS AI
Snowflake AI Research
البحوث Servicenow
ميتا منظمة العفو الدولية
COREME AI
ساكانا AI

؟ أخبار

[2024-10-06] نقوم بإصدار bigcodebench==v0.2.0 !
[2024-10-05] نقوم بإنشاء واجهة برمجة تطبيقات تنفيذ رمز عام على مساحة وجه المعانقة.
[2024-10-01] قمنا بتقييم 139 نماذج على BigCodebench-Hard حتى الآن. ألق نظرة على المتصدرين!
[2024-08-19] لجعل التقييم قابلاً للتكرار بالكامل ، نضيف جلسة تنفيذ رمز في الوقت الفعلي إلى لوحة المتصدرين. يمكن عرضه هنا.
[2024-08-02] نقوم بإطلاق bigcodebench==v0.1.9 .

المزيد من الأخبار :: انقر للتوسيع ::

[2024-07-18] نعلن عن مجموعة فرعية من BigCodebench ، BigCodebench-Hard ، والتي تتضمن 148 مهمة أكثر توافقًا مع مهام البرمجة في العالم الحقيقي. التفاصيل متوفرة في منشور المدونة هذا. مجموعة البيانات متوفرة هنا. الإصدار الجديد هو bigcodebench==v0.1.8 .
[2024-06-28] نطلق bigcodebench==v0.1.7 .
[2024-06-27] نطلق bigcodebench==v0.1.6 .
[2024-06-19] نبدأ في Hugging Face BigCodebench Leadboard! المتصدرين متاح هنا.
[2024-06-18] نقوم بإصدار BigCodebench ، وهو معيار جديد لتوليد الكود مع 1140 مهام برمجة ذات توجه مُوجه للبرمجيات. preprint متاح هنا. حزمة PYPI متوفرة هنا مع الإصدار 0.1.5 .

؟ عن

BigCodeBench

BigCodeBench هو معيار سهل الاستخدام لحل المهام العملية والصعبة عبر الكود. ويهدف إلى تقييم قدرات البرمجة الحقيقية لنماذج اللغة الكبيرة (LLMS) في بيئة أكثر واقعية. تم تصميم هذا المعيار لمهام توليد الكود على مستوى الوظائف التي تشبه Humaneval ، ولكن مع تعليمات أكثر تعقيدًا ومكالمات وظائف متنوعة.

هناك نوعان من الانقسامات في BigCodebench:

Complete : تم تصميم Thes Split لإكمال الكود بناءً على المستندات الشاملة.
Instruct : يعمل الانقسام على نماذج التعليمات والدردشة فقط ، حيث يُطلب من النماذج إنشاء مقتطف رمز بناءً على تعليمات اللغة الطبيعية. تحتوي التعليمات فقط على معلومات ضرورية ، وتتطلب التفكير أكثر تعقيدًا.

لماذا bigcodebench؟

يركز BigCodeBench على أتمتة المهام عبر توليد الكود مع مكالمات الوظائف المتنوعة والتعليمات المعقدة ، مع:

التقييم والترتيب الدقيق : راجع المتصدرين لدينا للحصول على أحدث تصنيفات LLM قبل وبعد تقييم صارم.
العينات التي تم إنشاؤها مسبقًا : يقوم BigCodeBench بتسريع أبحاث الكود الذكاء عن طريق عينات من LLM المفتوحة لمختلف النماذج-لا حاجة لإعادة تشغيل المعايير باهظة الثمن!

بداية سريعة

للبدء ، يرجى أولاً إعداد البيئة:

 # By default, you will use the remote evaluation API to execute the output samples.
pip install bigcodebench --upgrade

# You are suggested to use `flash-attn` for generating code samples.
pip install packaging ninja
pip install flash-attn --no-build-isolation
# Note: if you have installation problem, consider using pre-built
# wheels from https://github.com/Dao-AILab/flash-attention/releases

⏬ تثبيت الإصدار الليلي :: انقر للتوسيع ::

 # Install to use bigcodebench.generate
pip install " git+https://github.com/bigcode-project/bigcodebench.git " --upgrade

التقييم عن بعد

نستخدم فك تشفير الجشع كمثال لإظهار كيفية تقييم عينات التعليمات البرمجية التي تم إنشاؤها عبر API عن بُعد.

تحذير

لتخفيف الجيل ، نستخدم استنتاج الدُفعات افتراضيًا. ومع ذلك ، يمكن أن تختلف نتائج الاستدلال الدُفعات من أحجام الدُفعات إلى أحجام الدُفعات والإصدارات إلى الإصدارات ، على الأقل بالنسبة للواجهة الخلفية VLLM. إذا كنت ترغب في الحصول على المزيد من النتائج الحتمية لفك تشفير الجشع ، يرجى تعيين --bs إلى 1 .

ملحوظة

يستغرق التنفيذ عن بُعد على BigCodeBench-Full عادة 6-7 دقائق ، وعلى BigCodeBench-Hard يستغرق عادة 4-5 دقائق.

bigcodebench.evaluate 
  --model meta-llama/Meta-Llama-3.1-8B-Instruct 
  --split [complete | instruct] 
  --subset [full | hard] 
  --backend [vllm | openai | anthropic | google | mistral | hf]

سيتم تخزين جميع الملفات الناتجة في مجلد يدعى bcb_results .
سيتم تخزين عينات التعليمات البرمجية التي تم إنشاؤها في ملف يسمى [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonl .
سيتم تخزين نتائج التقييم في ملف يسمى [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.json .
سيتم تخزين نتائج PASS@K في ملف يسمى [model_name]--bigcodebench-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_pass_at_k.json .

ملحوظة

يستخدم BigCodeBench مطالبات مختلفة لنماذج القاعدة والدردشة. بشكل افتراضي ، يتم اكتشافه بواسطة tokenizer.chat_template عند استخدام hf / vllm كخلفية. بالنسبة للخلفية الأخرى ، يُسمح فقط بوضع الدردشة.

لذلك ، إذا كانت النماذج الأساسية الخاصة بك تأتي مع tokenizer.chat_template ، يرجى إضافة --direct_completion لتجنب التقييم في وضع الدردشة.

Access Openai APIs من Openai Console

 export OPENAI_API_KEY= < your_openai_api_key >

الوصول إلى واجهات برمجة التطبيقات البشرية من وحدة التحكم الإنسانية

 export ANTHROPIC_API_KEY= < your_anthropic_api_key >

الوصول

 export MISTRAL_API_KEY= < your_mistral_api_key >

الوصول إلى واجهات برمجة تطبيقات Gemini من Google AI Studio

 export GOOGLE_API_KEY= < your_google_api_key >

رمز LLM الذي تم إنشاؤه

نحن نشارك عينات التعليمات البرمجية المولدة مسبقًا من LLMs قمنا بتقييمها:

انظر مرفق V0.2.0.post3. نقوم بتضمين sanitized_samples_calibrated.zip لراحتك.

؟ استخدام متقدم

يرجى الرجوع إلى الاستخدام المتقدم لمزيد من التفاصيل.

؟ التقديم الناتج

يرجى إرسال كل من عينات التعليمات البرمجية التي تم إنشاؤها ونتائج التنفيذ إلى [email protected] إذا كنت ترغب في المساهمة في نموذجك في لوحة المتصدرين. لاحظ أن أسماء الملفات يجب أن تكون بتنسيق [model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated.jsonl [model_name]--[revision]--[bigcodebench|bigcodebench-hard]-[instruct|complete]--[backend]-[temp]-[n_samples]-sanitized_calibrated_eval_results.json . يمكنك تقديم مشكلة لتذكيرنا إذا لم نرد على بريدك الإلكتروني في غضون 3 أيام.

اقتباس

 @article { zhuo2024bigcodebench ,
  title = { BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions } ,
  author = { Zhuo, Terry Yue and Vu, Minh Chien and Chim, Jenny and Hu, Han and Yu, Wenhao and Widyasari, Ratnadira and Yusuf, Imam Nur Bani and Zhan, Haolan and He, Junda and Paul, Indraneil and others } ,
  journal = { arXiv preprint arXiv:2406.15877 } ,
  year = { 2024 }
}

شكر وتقدير

تقييم

يوسع

معلومات إضافية

الإصدار v0.2.1.post2
النوع شفرة المصدر الأخرى
وقت التحديث 2025-03-04
الحجم 86.95KB
من Github

تطبيقات ذات صلة

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل