llm leaderboard
1.0.0
共同社区努力为LLM创建一个中央排行榜。欢迎贡献和更正!
如果可以在本地部署并将其用于商业目的,则我们指的是“打开”的模型。
https://llm-leaderboard.streamlit.app/
https://huggingface.co/spaces/ludwigstumpp/llm-leaderboard
| 模型名称 | 出版商 | 打开? | 聊天机器人体育馆Elo | hellaswag(几次) | Hellaswag(零射) | hellaswag(一次性) | Humaneval-Python(通过@1) | 兰巴达(零射) | Lambada(一次性) | mmlu(零射) | mmlu(几次) | Triviaqa(零射) | Triviaqa(一次性) | Winogrande(零射) | Winogrande(一次性) | winogrande(几次) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 羊驼-7b | 斯坦福大学 | 不 | 0.739 | 0.661 | ||||||||||||
| 羊驼-13b | 斯坦福大学 | 不 | 1008 | |||||||||||||
| Bloom-176b | 大科学 | 是的 | 0.744 | 0.155 | 0.299 | |||||||||||
| 小脑-GPT-7B | 脑 | 是的 | 0.636 | 0.636 | 0.259 | 0.141 | ||||||||||
| 小脑-GPT-13B | 脑 | 是的 | 0.635 | 0.635 | 0.258 | 0.146 | ||||||||||
| chatglm-6b | chatglm | 是的 | 985 | |||||||||||||
| Chinchilla-70b | 深态 | 不 | 0.808 | 0.774 | 0.675 | 0.749 | ||||||||||
| codex-12b / code-cushman-001 | Openai | 不 | 0.317 | |||||||||||||
| Codegen-16b-Mono | Salesforce | 是的 | 0.293 | |||||||||||||
| Codegen-16b-Multi | Salesforce | 是的 | 0.183 | |||||||||||||
| Codegx-13b | Tsinghua大学 | 不 | 0.229 | |||||||||||||
| Dolly-V2-12b | 数据映 | 是的 | 944 | 0.710 | 0.622 | |||||||||||
| Eleuther-Pythia-7b | Eleutherai | 是的 | 0.667 | 0.667 | 0.265 | 0.198 | 0.661 | |||||||||
| Eleuther-Pythia-12b | Eleutherai | 是的 | 0.704 | 0.704 | 0.253 | 0.233 | 0.638 | |||||||||
| Falcon-7b | tii | 是的 | 0.781 | 0.350 | ||||||||||||
| Falcon-40B | tii | 是的 | 0.853 | 0.527 | ||||||||||||
| fastchat-t5-3b | lmsys.org | 是的 | 951 | |||||||||||||
| GAL-1220B | meta ai | 不 | 0.526 | |||||||||||||
| GPT-3-7B / Curie | Openai | 不 | 0.682 | 0.243 | ||||||||||||
| GPT-3-175B / Davinci | Openai | 不 | 0.793 | 0.789 | 0.439 | 0.702 | ||||||||||
| GPT-3.5-175b / text-davinci-003 | Openai | 不 | 0.822 | 0.834 | 0.481 | 0.762 | 0.569 | 0.758 | 0.816 | |||||||
| GPT-3.5-175b / code-davinci-002 | Openai | 不 | 0.463 | |||||||||||||
| GPT-4 | Openai | 不 | 0.953 | 0.670 | 0.864 | 0.875 | ||||||||||
| gpt4All-13b-snoozy | 媒体AI | 是的 | 0.750 | 0.713 | ||||||||||||
| GPT-Neox-20b | Eleutherai | 是的 | 0.718 | 0.719 | 0.719 | 0.269 | 0.276 | 0.347 | ||||||||
| GPT-J-6B | Eleutherai | 是的 | 0.663 | 0.683 | 0.683 | 0.261 | 0.249 | 0.234 | ||||||||
| 考拉13b | 伯克利·贝尔(Berkeley Bair) | 不 | 1082 | 0.726 | 0.688 | |||||||||||
| Llama-7b | meta ai | 不 | 0.738 | 0.105 | 0.738 | 0.302 | 0.443 | 0.701 | ||||||||
| Llama-13b | meta ai | 不 | 932 | 0.792 | 0.158 | 0.730 | ||||||||||
| Llama-33b | meta ai | 不 | 0.828 | 0.217 | 0.760 | |||||||||||
| Llama-65B | meta ai | 不 | 0.842 | 0.237 | 0.634 | 0.770 | ||||||||||
| Llama-2-70B | meta ai | 是的 | 0.873 | 0.698 | ||||||||||||
| MPT-7B | Mosaicml | 是的 | 0.761 | 0.702 | 0.296 | 0.343 | ||||||||||
| Oast-Pythia-12b | 公开助理 | 是的 | 1065 | 0.681 | 0.650 | |||||||||||
| OPT-7B | meta ai | 不 | 0.677 | 0.677 | 0.251 | 0.227 | ||||||||||
| OPT-13B | meta ai | 不 | 0.692 | 0.692 | 0.257 | 0.282 | ||||||||||
| OPT-66B | meta ai | 不 | 0.745 | 0.276 | ||||||||||||
| OPT-175B | meta ai | 不 | 0.791 | 0.318 | ||||||||||||
| 棕榈-62b | Google研究 | 不 | 0.770 | |||||||||||||
| 棕榈-540b | Google研究 | 不 | 0.838 | 0.834 | 0.836 | 0.262 | 0.779 | 0.818 | 0.693 | 0.814 | 0.811 | 0.837 | 0.851 | |||
| Palm-Coder-540b | Google研究 | 不 | 0.359 | |||||||||||||
| 棕榈-2-s | Google研究 | 不 | 0.820 | 0.807 | 0.752 | 0.779 | ||||||||||
| PALM-2-S* | Google研究 | 不 | 0.376 | |||||||||||||
| 棕榈-2-m | Google研究 | 不 | 0.840 | 0.837 | 0.817 | 0.792 | ||||||||||
| PALM-2-L | Google研究 | 不 | 0.868 | 0.869 | 0.861 | 0.830 | ||||||||||
| Palm-2-L-r-Instruct | Google研究 | 不 | 0.909 | |||||||||||||
| REPLIT-CODE-V1-3B | 补充 | 是的 | 0.219 | |||||||||||||
| Stablelm-Base-Alpha-7b | 稳定性AI | 是的 | 0.412 | 0.533 | 0.251 | 0.049 | 0.501 | |||||||||
| Stablelm-tuned-Alpha-7b | 稳定性AI | 不 | 858 | 0.536 | 0.548 | |||||||||||
| Starcoder-Base-16b | 大码 | 是的 | 0.304 | |||||||||||||
| Starcoder-16b | 大码 | 是的 | 0.336 | |||||||||||||
| Vicuna-13b | lmsys.org | 不 | 1169 |
| 基准名称 | 作者 | 关联 | 描述 |
|---|---|---|---|
| 聊天机器人体育馆Elo | lmsys | https://lmsys.org/blog/2023-05-03-arena/ | “在这篇博客文章中,我们介绍了Chatbot Arena,这是一个LLM基准平台,以众包的方式进行了匿名随机战斗。聊天机器人竞技场采用ELO评级系统,这是一个在国际象棋和其他竞争游戏中广泛使用的评级系统。” (来源:https://lmsys.org/blog/2023-05-03-arena/) |
| Hellaswag | Zellers等。 | https://arxiv.org/abs/1905.07830v1 | “ Hellaswag是评估常识性NLI的挑战数据集,这对于最先进的模型非常困难,尽管其问题对人类来说是微不足道的(> 95%的精度)。” (来源:https://paperswithcode.com/dataset/hellaswag) |
| 人类 | Chen等。 | https://arxiv.org/abs/2107.03374v2 | “它用于衡量从DocStrings合成程序的功能正确性。它由164个原始编程问题组成,评估语言理解,算法和简单的数学,其中一些与简单的软件访谈问题相媲美。” (来源:https://paperswithcode.com/dataset/humaneval) |
| 兰巴达 | Paperno等。 | https://arxiv.org/abs/1606.06031 | “兰巴达(Lambada)通过单词预测任务评估计算模型对文本理解的能力。兰巴达(Lambada)是叙事段落的集合,分享了人类受试者能够猜测他们的最后一句话,如果他们接触到整个段落,则不能在整个句子上看到最后一句话,但如果他们只能在lambada上获得范围的范围。 (来源:https://huggingface.co/datasets/lambada) |
| mmlu | Hendrycks等。 | https://github.com/hendrycks/test | “基准涵盖了STEM,人文科学,社会科学等的57个科目。它的难度从基础层面到高级专业水平,并且都测试了世界知识和问题解决能力。从传统领域(例如,数学和历史)范围从数学和历史等领域,例如法律和道德等更专业的领域,诸如法律和盲目的盲目范围。确定了一个模型和面包的理想。 (来源:“ https://paperswithcode.com/dataset/mmlu”) |
| Triviaqa | Joshi等。 | https://arxiv.org/abs/1705.03551v2 | “我们提出了Triviaqa,这是一个具有挑战性的阅读理解数据集,其中包含超过650k的问题 - 答案 - 证明三元组。Triviaqa包括95K的问题 - 答案兼答案,由Trivia爱好者和独立收集的证据文档,平均六个问题,平均而言有6个问题,为回答问题提供高质量的远程监督。” (来源:https://arxiv.org/abs/1705.03551v2) |
| Winogrande | Sakaguchi等。 | https://arxiv.org/abs/1907.10641v2 | “受原始WSC设计启发的44K [专家代词分辨率]问题的大规模数据集,但经过调整以改善数据集的规模和硬度。” (来源:https://arxiv.org/abs/1907.10641v2) |
我们总是为贡献感到高兴!您可以通过以下贡献:
如果您对有关商业使用和填充的Open LLM的概述感兴趣,请查看Open-LLMS存储库。
该排行榜的结果是从单个论文和模型作者发表的结果中收集的。对于每个报告的值,源添加为链接。
特别感谢以下页面:
上述信息可能是错误的。如果您想使用已发表的模型进行商业用途,请联系律师。