llm bulls and cows benchmark Download - llm bulls and cows benchmark Source Code Download

llm bulls and cows benchmark

شفرة المصدر الأخرى

1.0.0

تنزيل

LLM Bulls و Cows Connerg

مجموعة مصغرة لتقييم أداء LLM على لعبة التخمين في Bulls and Cows ، ودعم العديد من مقدمي الخدمات من خلال Litellm.

ملحوظة

TLDR: Bulls and Cows هي لعبة كسر رمز لاعبين. لاعب يكتب رقمًا سريًا مكون من 4 أرقام. يجب أن تكون الأرقام مختلفة (على سبيل المثال ، 1234 ). ثم يحاول لاعب آخر (LLM في هذه الحالة) تخمين الرقم السري (على سبيل المثال ، 1246 ). لكل تخمين يتم إرجاع معلومات عدد المباريات. إذا كانت الأرقام المطابقة في مواقفها الصحيحة ، فهي "ثيران" (ثيران في هذا المثال: 1 و 2 ) ، إذا كانت في مواقف مختلفة ، فهي "أبقار" (بقرة واحدة ، 4 ). يتطلب الحل الصحيح التفكير في التفكير في ذاكرة التخمين الجيدة والسياسة التالية من الإجابات السابقة. ثبت أنه يمكن حل أي رقم سري مكون من 4 أرقام في غضون سبعة منعطفات.

الميزات الرئيسية

✅ دعم LLM المتعدد : متوافق مع مختلف مقدمي الخدمات من خلال litellm ؛ تقريبًا ، يمكن استخدام أي نقطة نهاية تقريبًا
✅ مقاييس شاملة : تتتبع معدلات النجاح ، وفشل التنسيق ، وكفاءة اللعبة (تقاس كعدد من المنعطفات في الألعاب التي انتهت بنجاح)
✅ التصور التفاعلي : يولد مخططات لتحليل الأداء عبر عمليات التشغيل ، مما يسمح بمقارنات بين النماذج ومقدمي النماذج
✅ المعلمات القابلة للتكوين : تخصيص قواعد اللعبة (3 أو 4 أرقام قابلة للتكرار/فريدة)
✅ أشرطة التقدم الغنية : لا تشعر بالملل أثناء تشغيل القياس: سيتم عرض جميع النتائج الوسيطة لجميع الألعاب المتزامنة ، مع تحديثات متري مباشرة!

Progress Bar Demo

نتائج الثيران والأبقار القياسية (4 أرقام مع تكرار)

Reults Table

... أو كجدول تخفيض

نموذج	ألعاب	معدل النجاح	AVG المنعطفات (النجاح فقط)	إخفاقات التنسيق (المنعطفات)
Openai/O1-Mini-2024-09-12	25	60.0 ٪ [40.7 ٪ ؛ 76.6 ٪]	9.1 ± 2.7	23.1 ٪
OpenRouter/Anthropic/Claude-3.5-Sonnet	50	36.0 ٪ [24.1 ٪ ؛ 49.9 ٪]	9.8 ± 4.0	0.0 ٪
Openai/GPT-4O-2024-08-06	50	30.0 ٪ [19.1 ٪ ؛ 43.8 ٪]	9.5 ± 3.6	0.0 ٪
Openai/GPT-4O-MINI-2024-07-18	50	26.0 ٪ [15.9 ٪ ؛ 39.6 ٪]	10.0 ± 3.1	0.1 ٪
OpenRouter/Deepseek/Deepseek-Chat	50	18.0 ٪ [9.8 ٪ ؛ 30.8 ٪]	11.6 ± 3.6	3.3 ٪
OpenRouter/meta-llama/llama-3.1-405b-instruct	50	8.0 ٪ [3.2 ٪ ؛ 18.8 ٪]	9.5 ± 3.3	3.0 ٪
OpenRouter/Google/Gemini-Pro-1.5	50	8.0 ٪ [3.2 ٪ ؛ 18.8 ٪]	8.0 ± 4.1	0.1 ٪
OpenRouter/Google/Gemini-Flash-1.5	50	2.0 ٪ [0.4 ٪ ؛ 10.5 ٪]	8.0 ± 0.0	0.9 ٪
الإنسان/كلود -3-5-هايكو -20241022	50	0.0 ٪ [0.0 ٪ ؛ 7.1 ٪]	0.0 ± 0.0	0.9 ٪

مهم

بالنسبة لمعظم أشواط ، تم لعب 50 لعبة (باستثناء O1-MINI) ، وبالتالي ، فترات الثقة واسعة. إذا كنت ترغب في إنفاق 100-200 دولار في ائتمانات API في الاختبارات لتحقيق نتائج أكثر دقة وجعل رابطة الدول المستقلة أضيق ، فلا تتردد في الوصول إلي أو فتح العلاقات العامة مع نتائجك.

بعض التفاصيل المهمة حول الاختبار

يتم جمع جميع المطالبات والقوالب بسهولة في ملف واحد.
تحدد المطالبة أن النموذج يمكن أن يكون السبب الأول ثم توفير تخمين ، والذي يجب أن يكون على سطر منفصل ويتبع التنسيق GUESS: 1234 (محدد في ملف المطالبات)
يتم تجنب المخرجات المهيكلة/json-mode عمدا لسببين:
1. تشير بعض الدراسات (على سبيل المثال ، Tam et al. ، 2024) إلى تدهور في جودة LLM في هذا الوضع.
2. ليس كل واجهات برمجة التطبيقات/الأطر تدعمها بشكل جيد.
حتى النماذج الصغيرة والرخيصة تتعامل مع تنسيق الاستجابة بشكل جيد (على سبيل المثال ، فلاش الجوزاء <1 ٪ من فشل تنسيق ، على الرغم من أن نماذج Google تميل إلى إضافة خط جديد بعد إضافة - .strip() تمت إضافة هذا).
ربما من المثير للدهشة أن أفضل نموذج ، o1-mini ، ينسى غالبًا قواعد التنسيق ويحاول إضافة تركيز جريء على الاستجابة. تم اعتبار هذا السلوك غير مقبول ويتم حسابه كخطأ ودوره المهدر ، حيث تحدد التعليمات بشكل صريح التنسيق المطلوب.
- في معظم الألعاب ، كان النموذج قادرًا على التكرار على ملاحظات التنسيق والتوصل إلى إجابة أو تخمين جديد.
لم يتم تحسين المطالبات على وجه التحديد لأي LLM معين ، ولا أعتقد أن عملية إنشاءها تفضل أي نموذج محدد. للشفافية ، إليك عملية الإنشاء الموجه:
- في البداية ، صاغها Sonnet 3.5 (جديد) كجزء من تطوير الرمز القياسي.
- ثم تم تنقيح المسودات من قبل LLM نفسها بناءً على ملاحظاتي.
- لقد قمت بتعديل مجموعة فرعية صغيرة من المطالبات يدويًا (بما في ذلك تنسيق تخفيض الصريح في الاستجابات لمواجهة سلوك o1-mini ).
- لم يتم إجراء تحسين سريع لتحسين جودة حل المهام (ويرجع ذلك في المقام الأول إلى فترات الثقة الواسعة ؛ هناك حاجة إلى مئات الألعاب لتحقيق نتائج موثوقة).
تنظر النتيجة الأساسية لـ Benchmark في الإصدار المكون من 4 أرقام بأرقام 0-9 دون تكرار ، وفقًا لقواعد الثيران والأبقار الأصلية الموضحة على ويكيبيديا.
- بسبب قيود الميزانية ، تم تقديم حد لعدد التخمينات:
  - 15 يتحول للإصدار المكون من 4 أرقام (أكثر من ضعف المثلى ؛ لقد ثبت أنه يمكن حل أي رقم سري في غضون سبعة دورات).
  - 12 يتحول للإصدار المكون من 3 أرقام.
- ومع ذلك ، يمكن تغيير هذا في ملف التكوين.
قد يكون لبعض النماذج التي تم اختبارها عبر OpenRouter مستويات كمية مختلفة (FP8/BF16/FP16) ، لذلك قد تكون نتائج الألعاب الفردية منحرفة قليلاً. ومع ذلك ، ليس من المتوقع أن يؤثر هذا بشكل كبير على الجودة العامة ونماذج النماذج.
لتقدير الفاصل الزمني للثقة ، يتم استخدام فاصل نقاط ويلسون. إنه غير متماثل بالنسبة لمعدل النجاح الذي تم الحصول عليه ؛ و:
- إنه لا يعاني من تجاوزات الفاصل الزمني للتفوق على الصفر التي تؤثر على الفاصل الزمني الطبيعي.
- يمكن استخدامه بأمان مع عينات صغيرة وملاحظات منحرفة.

التكاليف التقريبية لتشغيل المعيار مع LLMs مختلفة

3 أرقام (إصدار تصحيح: أقل المنعطفات ، التفكير الأقصر):

openai/gpt-4o-mini-2024-07-18 : 283K مخزنة مؤقتًا + 221 كيلو باطن + 68K الإخراج = 0.1 دولار ( موصى بها للتصحيح )

openai/gpt-4o-2024-08-06 : 174K مخزنة + 241K غير متوفرة + 56K الإخراج = 1.38 دولار

openai/gpt-4-turbo-2024-04-09 : غير معروف = 6.65 دولار

openai/o1-mini-2024-09-12 : 0K مخزنة + 335K غير متوفرة + 1345K الإخراج = 17.15 دولار

anthropic/claude-3-haiku-20240307 : 492K إدخال + 46K الإخراج = 0.18 دولار

4 أرقام (الإصدار الرئيسي):

openai/gpt-4o-mini-2024-07-18 : 451K مخبأة + 429K غير متوفرة + 100K الإخراج = 0.15 دولار

openai/gpt-4o-2024-08-06 : 553K مخزنة مؤقتًا + 287K غير متوفرة + 87K = 2.29 دولار

(25 لعبة) openai/o1-mini-2024-09-12 : 0K مخزنة مؤقتًا + 584 كيلو بايت + 1815K الإخراج = 23.54 دولار

anthropic/claude-3-5-haiku-20241022 : 969K إدخال + 90K الإخراج = 1.42 دولار

openrouter/anthropic/claude-3.5-sonnet (جديد): غير معروف = 5.2 دولارات

خلفية:

ظهر هذا الإطار إلى حيز الوجود بفضل تعليق فضولي من مشترك في قناة Telegram الخاصة بي. زعموا أنهم اختبروا مختلف LLMs في لعبة الثيران والأبقار ، وخلصوا إلى أنه لا يمكن لأي شيء حلها ، وبالتالي ، لا يمكن لـ LLMs التفكير. مفتون ، لقد طلبت أمثلة على ما يسمى "الإخفاقات" ، فقط ليتم إخبار المحادثات. مريح. في وقت لاحق ، ذكروا تجربة O1-Preview ، والتي يبدو أنها حلتها-في حوالي 20 حركة ، بعيدًا عن الحركات السبعة التي تعتبر مثالية.

في هذه الأثناء ، كنت أبحث عن عذر لتجربة Openhands ، وما هي أفضل طريقة من تحدي Copilot لتدوير معيار LLM من نقطة الصفر؟ بعد ثلاث أمسيات من الجهد القلبي (كنت ألعب مطارد 2 في وقت واحد) ، وُلد هذا المعيار-وهو منتج من الأجزاء المتساوية اللامبالاة والرغبة في إثبات وجود نقطة لم يطلبها أحد. يتمتع!

بداية سريعة

تثبيت التبعيات وإعداد السنانير قبل الالتزام:

pip install -r requirements.txt
pre-commit install

(اختياري) لفهم المنطق ، اقرأ جميع المطالبات هنا.
قم بتكوين مفاتيح API الخاصة بمزود LLM الخاص بك كمتغيرات بيئة (إما direclty في محطةك أو استخدام ملف .env). أوصي باستخدام إما Openai أو مفاتيح الإنسان ، و OpenRouter لأي شيء آخر.
اضبط config/default_config.yaml مع إعدادات الطراز واللعبة المطلوب. استخدم run_id لتخزين أشواط مختلفة في مجلدات منفصلة - وإلا سيتم تسمية مجلدات النتائج مع الطوابع الزمنية. الحقول الرئيسية هي: model ، target_length (كم عدد الأرقام في الرقم السري) ، num_concurrent_games (للتغلب على حدود واجهة برمجة تطبيقات TPS المضحكة. على سبيل المثال ، بالنسبة للأنثروبور ، لا أوصي بإعداد هذه القيمة أعلى من 2 ، بينما يمكن لـ Openai بسهولة دعم 8 - 10 ألعاب متزامنة).
قم بتشغيل المؤشر وتصور نتائج جميع عمليات التشغيل:

python run_benchmark.py
python scripts/visualize_results.py

ستكون النتائج متاحة في HTML (مع مؤامرات إضافية) وتنسيق.

المقاييس والتحليل

يقوم المعيار بتقييم LLMS على ثلاثة جوانب رئيسية:

معدل النجاح : القدرة على العثور على الرقم الصحيح من خلال عدة تفاعلات مع اللعبة
الامتثال التنسيق : كم مرة فشل النموذج في اتباع تعليمات بسيطة على تنسيق الإجابة
الكفاءة : متوسط عدد المنعطفات اللازمة للفوز باللعبة

يتم حفظ النتائج مع تاريخ اللعبة الكاملة (بما في ذلك سجلات المحادثة ، على سبيل المثال ، هنا) والتكوينات للتحليل التفصيلي.