llm leaderboard
1.0.0
جهد مجتمعي مشترك لإنشاء لوحة المتصدرين المركزية واحدة لـ LLMS. المساهمات والتصحيحات موضع ترحيب!
نشير إلى نموذج "مفتوح" إذا كان يمكن نشره محليًا واستخدامه لأغراض تجارية.
https://llm-leaderboard.streamlit.app/
https://huggingface.co/spaces/ludwigstumpp/llm-leaderboard
| اسم النموذج | الناشر | يفتح؟ | chatbot arena elo | Hellaswag (قليلة الطلقة) | Hellaswag (صفر طلقة) | Hellaswag (طلقة واحدة) | Humaneval-Python (Pass@1) | Lambada (صفر طلقة) | Lambada (طلقة واحدة) | MMLU (صفر طلقة) | MMLU (قليلة الطلقة) | Triviaqa (صفر طلقة) | Triviaqa (طلقة واحدة) | Winogrande (صفر طلقة) | Winogrande (طلقة واحدة) | Winogrande (قليلة الطلقة) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| الألبكة-7 ب | ستانفورد | لا | 0.739 | 0.661 | ||||||||||||
| الألبكة -13 ب | ستانفورد | لا | 1008 | |||||||||||||
| بلوم 176 ب | كبير | نعم | 0.744 | 0.155 | 0.299 | |||||||||||
| الدماغ-GPT-7B | الدماغ | نعم | 0.636 | 0.636 | 0.259 | 0.141 | ||||||||||
| الدماغ-GPT-13B | الدماغ | نعم | 0.635 | 0.635 | 0.258 | 0.146 | ||||||||||
| ChatGlm-6b | ChatGlm | نعم | 985 | |||||||||||||
| Chinchilla-70b | DeepMind | لا | 0.808 | 0.774 | 0.675 | 0.749 | ||||||||||
| CODEX-12B / CODE-CUSHMAN-001 | Openai | لا | 0.317 | |||||||||||||
| Codegen-16B-Mono | Salesforce | نعم | 0.293 | |||||||||||||
| Codegen-16B-Multi | Salesforce | نعم | 0.183 | |||||||||||||
| CODEGX-13B | جامعة تسينغهوا | لا | 0.229 | |||||||||||||
| Dolly-V2-12b | Databricks | نعم | 944 | 0.710 | 0.622 | |||||||||||
| Eleuther-Pythia-7b | إليوتراي | نعم | 0.667 | 0.667 | 0.265 | 0.198 | 0.661 | |||||||||
| Eleuther-Pythia-12b | إليوتراي | نعم | 0.704 | 0.704 | 0.253 | 0.233 | 0.638 | |||||||||
| فالكون -7 ب | تي | نعم | 0.781 | 0.350 | ||||||||||||
| فالكون -40 ب | تي | نعم | 0.853 | 0.527 | ||||||||||||
| Fastchat-T5-3b | lmsys.org | نعم | 951 | |||||||||||||
| GAL-120B | ميتا منظمة العفو الدولية | لا | 0.526 | |||||||||||||
| GPT-3-7B / CURIE | Openai | لا | 0.682 | 0.243 | ||||||||||||
| GPT-3-175B / Davinci | Openai | لا | 0.793 | 0.789 | 0.439 | 0.702 | ||||||||||
| GPT-3.5-175B / TEXT-DAVINC-003 | Openai | لا | 0.822 | 0.834 | 0.481 | 0.762 | 0.569 | 0.758 | 0.816 | |||||||
| GPT-3.5-175B / CODE-DAVINC-002 | Openai | لا | 0.463 | |||||||||||||
| GPT-4 | Openai | لا | 0.953 | 0.670 | 0.864 | 0.875 | ||||||||||
| GPT4ALL-13B-SNOOZY | NOMIC AI | نعم | 0.750 | 0.713 | ||||||||||||
| GPT-NEOX-20B | إليوتراي | نعم | 0.718 | 0.719 | 0.719 | 0.269 | 0.276 | 0.347 | ||||||||
| GPT-J-6B | إليوتراي | نعم | 0.663 | 0.683 | 0.683 | 0.261 | 0.249 | 0.234 | ||||||||
| Koala-13b | بيركلي باير | لا | 1082 | 0.726 | 0.688 | |||||||||||
| لاما -7 ب | ميتا منظمة العفو الدولية | لا | 0.738 | 0.105 | 0.738 | 0.302 | 0.443 | 0.701 | ||||||||
| لاما -13 ب | ميتا منظمة العفو الدولية | لا | 932 | 0.792 | 0.158 | 0.730 | ||||||||||
| لاما 33 ب | ميتا منظمة العفو الدولية | لا | 0.828 | 0.217 | 0.760 | |||||||||||
| لاما 65 ب | ميتا منظمة العفو الدولية | لا | 0.842 | 0.237 | 0.634 | 0.770 | ||||||||||
| لاما 2-70B | ميتا منظمة العفو الدولية | نعم | 0.873 | 0.698 | ||||||||||||
| MPT-7B | Mosaicml | نعم | 0.761 | 0.702 | 0.296 | 0.343 | ||||||||||
| OASST-PYTHIA-12B | مساعد مفتوح | نعم | 1065 | 0.681 | 0.650 | |||||||||||
| OPT-7B | ميتا منظمة العفو الدولية | لا | 0.677 | 0.677 | 0.251 | 0.227 | ||||||||||
| OPT-13B | ميتا منظمة العفو الدولية | لا | 0.692 | 0.692 | 0.257 | 0.282 | ||||||||||
| OPT-66B | ميتا منظمة العفو الدولية | لا | 0.745 | 0.276 | ||||||||||||
| OPT-175B | ميتا منظمة العفو الدولية | لا | 0.791 | 0.318 | ||||||||||||
| Palm-62b | بحث جوجل | لا | 0.770 | |||||||||||||
| Palm-540b | بحث جوجل | لا | 0.838 | 0.834 | 0.836 | 0.262 | 0.779 | 0.818 | 0.693 | 0.814 | 0.811 | 0.837 | 0.851 | |||
| رفاه النخيل-540 ب | بحث جوجل | لا | 0.359 | |||||||||||||
| النخيل 2-س | بحث جوجل | لا | 0.820 | 0.807 | 0.752 | 0.779 | ||||||||||
| النخيل 2-S* | بحث جوجل | لا | 0.376 | |||||||||||||
| النخيل 2 م | بحث جوجل | لا | 0.840 | 0.837 | 0.817 | 0.792 | ||||||||||
| النخيل 2-ل | بحث جوجل | لا | 0.868 | 0.869 | 0.861 | 0.830 | ||||||||||
| Palm-2-L-instruct | بحث جوجل | لا | 0.909 | |||||||||||||
| Replit-Code-V1-3b | إعادة | نعم | 0.219 | |||||||||||||
| Stablelm-base-alpha-7b | الاستقرار الذكاء الاصطناعي | نعم | 0.412 | 0.533 | 0.251 | 0.049 | 0.501 | |||||||||
| stablelm-tuned-alpha-7b | الاستقرار الذكاء الاصطناعي | لا | 858 | 0.536 | 0.548 | |||||||||||
| Starcoder-Base-16B | Bigcode | نعم | 0.304 | |||||||||||||
| Starcoder-16b | Bigcode | نعم | 0.336 | |||||||||||||
| Vicuna-13B | lmsys.org | لا | 1169 |
| الاسم القياسي | مؤلف | وصلة | وصف |
|---|---|---|---|
| chatbot arena elo | lmsys | https://lmsys.org/blog/2023-05-03-arena/ | "في منشور المدونة هذا ، نقدم Chatbot Arena ، منصة LLM القياسية التي تتميز معارك عشوائية مجهولة المصدر بطريقة جماعية. تعتمد Chatbot Arena نظام تصنيف ELO ، وهو نظام تصنيف على نطاق واسع في لعبة الشطرنج والألعاب التنافسية الأخرى." (المصدر: https://lmsys.org/blog/2023-05-03-arena/) |
| Hellaswag | Zellers et al. | https://arxiv.org/abs/1905.07830v1 | "Hellaswag هي مجموعة بيانات تحدي لتقييم NLI المنطقية التي من الصعب بشكل خاص بالنسبة للموديلات الحديثة ، على الرغم من أن أسئلتها تافهة للبشر (> دقة 95 ٪)." (المصدر: https://paperswithcode.com/dataset/hellaswag) |
| Humaneval | تشن وآخرون. | https://arxiv.org/abs/2107.03374v2 | "لقد كانت تستخدم لقياس الصواب الوظيفي لتجميع البرامج من docstrings. وهي تتألف من 164 مشكلة في البرمجة الأصلية ، وتقييم فهم اللغة ، والخوارزميات ، والرياضيات البسيطة ، مع بعض أسئلة مقابلة البرامج البسيطة." (المصدر: https://paperswithcode.com/dataset/humaneval) |
| لامبادا | Paperno et al. | https://arxiv.org/abs/1606.06031 | "يقيم Lambada قدرات النماذج الحسابية لفهم النص عن طريق مهمة التنبؤ بالكلمة. Lambada هي مجموعة من الممرات السردية التي تشترك في المميزة التي تفيد بأن الأشخاص البشريين قادرون على تخمين كلمتهم الأخيرة إذا تعرضوا للمرور بأكمله ، ولكن ليس في حالة عدم وجود ما يسبقه في الحدود ، ولكن لا يشهدون أن يتمكنوا من الاحتفاظ بالموضوع في حدوثه في حدوثه في التتبع. (المصدر: https://huggingface.co/Datasets/lambada) |
| mmlu | Hendrycks et al. | https://github.com/hendrycks/test | "يغطي المعيار 57 موضوعًا عبر STEM ، والعلوم الإنسانية ، والعلوم الاجتماعية ، وأكثر من ذلك. إنه يتراوح صعوبة من المستوى الابتدائي إلى المستوى المهني المتقدم ، ويختبر كل من المعرفة العالمية وقدرة حل المشكلات. تتراوح الموضوعات من الموضوعات التقليدية ، مثل الرياضيات وتاريخها. (المصدر: "https://paperswithcode.com/dataset/mmlu") |
| Triviaqa | جوشي وآخرون. | https://arxiv.org/abs/1705.03551v2 | "نقدم Triviaqa ، مجموعة بيانات فهم صعبة القراءة التي تحتوي على أكثر من 650 ألف أسئلة-إيجاد-أدلة ثلاثية-تتضمن Triviaqa 95 ألف زوج من الأزواج التي تم تأليفها من قبل عشاق التوافه ووثائق الأدلة التي تم جمعها بشكل مستقل ، ستة في المتوسط في المتوسط ، والتي توفر إشرافًا بعيدًا عالي الجودة للرد على الأسئلة." (المصدر: https://arxiv.org/abs/1705.03551v2) |
| Winogrande | Sakaguchi et al. | https://arxiv.org/abs/1907.10641v2 | "مجموعة بيانات واسعة النطاق تضم مشكلات 44k [دقة الضمير الخبراء] ، مستوحاة من تصميم WSC الأصلي ، ولكن تم ضبطها لتحسين كل من مقياس وصدة مجموعة البيانات." (المصدر: https://arxiv.org/abs/1907.10641v2) |
نحن دائما سعداء للمساهمات! يمكنك المساهمة بما يلي:
إذا كنت مهتمًا بنظرة عامة حول Open LLMs للاستخدام التجاري والتعاون ، تحقق من مستودع Open-LLMS.
يتم جمع نتائج هذه اللوحة المتصدرين من الأوراق الفردية والنتائج المنشورة للمؤلفين النماذج. لكل قيمة تم الإبلاغ عنها ، تتم إضافة المصدر كرابط.
شكر خاص للصفحات التالية:
قد تكون المعلومات أعلاه خاطئة. إذا كنت ترغب في استخدام نموذج منشور للاستخدام التجاري ، فيرجى الاتصال بمحام.