llm leaderboard
1.0.0
共同社區努力為LLM創建一個中央排行榜。歡迎貢獻和更正!
如果可以在本地部署並將其用於商業目的,則我們指的是“打開”的模型。
https://llm-leaderboard.streamlit.app/
https://huggingface.co/spaces/ludwigstumpp/llm-leaderboard
| 模型名稱 | 出版商 | 打開? | 聊天機器人體育館Elo | hellaswag(幾次) | Hellaswag(零射) | hellaswag(一次性) | Humaneval-Python(通過@1) | 蘭巴達(零射) | Lambada(一次性) | mmlu(零射) | mmlu(幾次) | Triviaqa(零射) | Triviaqa(一次性) | Winogrande(零射) | Winogrande(一次性) | winogrande(幾次) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 羊駝-7b | 斯坦福大學 | 不 | 0.739 | 0.661 | ||||||||||||
| 羊駝-13b | 斯坦福大學 | 不 | 1008 | |||||||||||||
| Bloom-176b | 大科學 | 是的 | 0.744 | 0.155 | 0.299 | |||||||||||
| 小腦-GPT-7B | 腦 | 是的 | 0.636 | 0.636 | 0.259 | 0.141 | ||||||||||
| 小腦-GPT-13B | 腦 | 是的 | 0.635 | 0.635 | 0.258 | 0.146 | ||||||||||
| chatglm-6b | chatglm | 是的 | 985 | |||||||||||||
| Chinchilla-70b | 深態 | 不 | 0.808 | 0.774 | 0.675 | 0.749 | ||||||||||
| codex-12b / code-cushman-001 | Openai | 不 | 0.317 | |||||||||||||
| Codegen-16b-Mono | Salesforce | 是的 | 0.293 | |||||||||||||
| Codegen-16b-Multi | Salesforce | 是的 | 0.183 | |||||||||||||
| Codegx-13b | Tsinghua大學 | 不 | 0.229 | |||||||||||||
| Dolly-V2-12b | 數據映 | 是的 | 944 | 0.710 | 0.622 | |||||||||||
| Eleuther-Pythia-7b | Eleutherai | 是的 | 0.667 | 0.667 | 0.265 | 0.198 | 0.661 | |||||||||
| Eleuther-Pythia-12b | Eleutherai | 是的 | 0.704 | 0.704 | 0.253 | 0.233 | 0.638 | |||||||||
| Falcon-7b | tii | 是的 | 0.781 | 0.350 | ||||||||||||
| Falcon-40B | tii | 是的 | 0.853 | 0.527 | ||||||||||||
| fastchat-t5-3b | lmsys.org | 是的 | 951 | |||||||||||||
| GAL-1220B | meta ai | 不 | 0.526 | |||||||||||||
| GPT-3-7B / Curie | Openai | 不 | 0.682 | 0.243 | ||||||||||||
| GPT-3-175B / Davinci | Openai | 不 | 0.793 | 0.789 | 0.439 | 0.702 | ||||||||||
| GPT-3.5-175b / text-davinci-003 | Openai | 不 | 0.822 | 0.834 | 0.481 | 0.762 | 0.569 | 0.758 | 0.816 | |||||||
| GPT-3.5-175b / code-davinci-002 | Openai | 不 | 0.463 | |||||||||||||
| GPT-4 | Openai | 不 | 0.953 | 0.670 | 0.864 | 0.875 | ||||||||||
| gpt4All-13b-snoozy | 媒體AI | 是的 | 0.750 | 0.713 | ||||||||||||
| GPT-Neox-20b | Eleutherai | 是的 | 0.718 | 0.719 | 0.719 | 0.269 | 0.276 | 0.347 | ||||||||
| GPT-J-6B | Eleutherai | 是的 | 0.663 | 0.683 | 0.683 | 0.261 | 0.249 | 0.234 | ||||||||
| 考拉13b | 伯克利·貝爾(Berkeley Bair) | 不 | 1082 | 0.726 | 0.688 | |||||||||||
| Llama-7b | meta ai | 不 | 0.738 | 0.105 | 0.738 | 0.302 | 0.443 | 0.701 | ||||||||
| Llama-13b | meta ai | 不 | 932 | 0.792 | 0.158 | 0.730 | ||||||||||
| Llama-33b | meta ai | 不 | 0.828 | 0.217 | 0.760 | |||||||||||
| Llama-65B | meta ai | 不 | 0.842 | 0.237 | 0.634 | 0.770 | ||||||||||
| Llama-2-70B | meta ai | 是的 | 0.873 | 0.698 | ||||||||||||
| MPT-7B | Mosaicml | 是的 | 0.761 | 0.702 | 0.296 | 0.343 | ||||||||||
| Oast-Pythia-12b | 公開助理 | 是的 | 1065 | 0.681 | 0.650 | |||||||||||
| OPT-7B | meta ai | 不 | 0.677 | 0.677 | 0.251 | 0.227 | ||||||||||
| OPT-13B | meta ai | 不 | 0.692 | 0.692 | 0.257 | 0.282 | ||||||||||
| OPT-66B | meta ai | 不 | 0.745 | 0.276 | ||||||||||||
| OPT-175B | meta ai | 不 | 0.791 | 0.318 | ||||||||||||
| 棕櫚-62b | Google研究 | 不 | 0.770 | |||||||||||||
| 棕櫚-540b | Google研究 | 不 | 0.838 | 0.834 | 0.836 | 0.262 | 0.779 | 0.818 | 0.693 | 0.814 | 0.811 | 0.837 | 0.851 | |||
| Palm-Coder-540b | Google研究 | 不 | 0.359 | |||||||||||||
| 棕櫚-2-s | Google研究 | 不 | 0.820 | 0.807 | 0.752 | 0.779 | ||||||||||
| PALM-2-S* | Google研究 | 不 | 0.376 | |||||||||||||
| 棕櫚-2-m | Google研究 | 不 | 0.840 | 0.837 | 0.817 | 0.792 | ||||||||||
| PALM-2-L | Google研究 | 不 | 0.868 | 0.869 | 0.861 | 0.830 | ||||||||||
| Palm-2-L-r-Instruct | Google研究 | 不 | 0.909 | |||||||||||||
| REPLIT-CODE-V1-3B | 補充 | 是的 | 0.219 | |||||||||||||
| Stablelm-Base-Alpha-7b | 穩定性AI | 是的 | 0.412 | 0.533 | 0.251 | 0.049 | 0.501 | |||||||||
| Stablelm-tuned-Alpha-7b | 穩定性AI | 不 | 858 | 0.536 | 0.548 | |||||||||||
| Starcoder-Base-16b | 大碼 | 是的 | 0.304 | |||||||||||||
| Starcoder-16b | 大碼 | 是的 | 0.336 | |||||||||||||
| Vicuna-13b | lmsys.org | 不 | 1169 |
| 基準名稱 | 作者 | 關聯 | 描述 |
|---|---|---|---|
| 聊天機器人體育館Elo | lmsys | https://lmsys.org/blog/2023-05-03-arena/ | “在這篇博客文章中,我們介紹了Chatbot Arena,這是一個LLM基準平台,以眾包的方式進行了匿名隨機戰鬥。聊天機器人競技場採用ELO評級系統,這是一個在國際象棋和其他競爭遊戲中廣泛使用的評級系統。” (來源:https://lmsys.org/blog/2023-05-03-arena/) |
| Hellaswag | Zellers等。 | https://arxiv.org/abs/1905.07830v1 | “ Hellaswag是評估常識性NLI的挑戰數據集,這對於最先進的模型非常困難,儘管其問題對人類來說是微不足道的(> 95%的精度)。” (來源:https://paperswithcode.com/dataset/hellaswag) |
| 人類 | Chen等。 | https://arxiv.org/abs/2107.03374v2 | “它用於衡量從DocStrings合成程序的功能正確性。它由164個原始編程問題組成,評估語言理解,算法和簡單的數學,其中一些與簡單的軟件訪談問題相媲美。” (來源:https://paperswithcode.com/dataset/humaneval) |
| 蘭巴達 | Paperno等。 | https://arxiv.org/abs/1606.06031 | “蘭巴達(Lambada)通過單詞預測任務評估計算模型對文本理解的能力。蘭巴達(Lambada)是敘事段落的集合,分享了人類受試者能夠猜測他們的最後一句話,如果他們接觸到整個段落,則不能在整個句子上看到最後一句話,但如果他們只能在lambada上獲得範圍的範圍。 (來源:https://huggingface.co/datasets/lambada) |
| mmlu | Hendrycks等。 | https://github.com/hendrycks/test | “基準涵蓋了STEM,人文科學,社會科學等的57個科目。它的難度從基礎層面到高級專業水平,並且都測試了世界知識和問題解決能力。從傳統領域(例如,數學和歷史)範圍從數學和歷史等領域,例如法律和道德等更專業的領域,諸如法律和盲目的盲目範圍。確定了一個模型和麵包的理想。 (來源:“ https://paperswithcode.com/dataset/mmlu”) |
| Triviaqa | Joshi等。 | https://arxiv.org/abs/1705.03551v2 | “我們提出了Triviaqa,這是一個具有挑戰性的閱讀理解數據集,其中包含超過650k的問題 - 答案 - 證明三元組。Triviaqa包括95K的問題 - 答案兼答案,由Trivia愛好者和獨立收集的證據文檔,平均六個問題,平均而言有6個問題,為回答問題提供高質量的遠程監督。” (來源:https://arxiv.org/abs/1705.03551v2) |
| Winogrande | Sakaguchi等。 | https://arxiv.org/abs/1907.10641v2 | “受原始WSC設計啟發的44K [專家代詞分辨率]問題的大規模數據集,但經過調整以改善數據集的規模和硬度。” (來源:https://arxiv.org/abs/1907.10641v2) |
我們總是為貢獻感到高興!您可以通過以下貢獻:
如果您對有關商業使用和填充的Open LLM的概述感興趣,請查看Open-LLMS存儲庫。
該排行榜的結果是從單個論文和模型作者發表的結果中收集的。對於每個報告的值,源添加為鏈接。
特別感謝以下頁面:
上述信息可能是錯誤的。如果您想使用已發表的模型進行商業用途,請聯繫律師。