llm leaderboard
1.0.0
LLMSの1つの中央リーダーボードを作成するための共同コミュニティの努力。貢献と修正が大歓迎です!
モデルを「オープン」であることを参照してください。これは、局所的に展開され、商業目的で使用できる場合です。
https://llm-leaderboard.streamlit.app/
https://huggingface.co/spaces/ludwigstumpp/llm-leaderboard
| モデル名 | 出版社 | 開ける? | チャットボットアリーナエロ | Hellaswag(少数のショット) | Hellaswag(ゼロショット) | Hellaswag(ワンショット) | HumanVal-Python(パス@1) | ランバダ(ゼロショット) | ランバダ(ワンショット) | MMLU(ゼロショット) | MMLU(少数のショット) | Triviaqa(ゼロショット) | Triviaqa(ワンショット) | Winogrande(ゼロショット) | Winogrande(ワンショット) | Winogrande(少数のショット) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Alpaca-7B | スタンフォード | いいえ | 0.739 | 0.661 | ||||||||||||
| ALPACA-13B | スタンフォード | いいえ | 1008 | |||||||||||||
| Bloom-176b | BigScience | はい | 0.744 | 0.155 | 0.299 | |||||||||||
| セレブラス-GPT-7B | セレブラス | はい | 0.636 | 0.636 | 0.259 | 0.141 | ||||||||||
| セレブラス-GPT-13B | セレブラス | はい | 0.635 | 0.635 | 0.258 | 0.146 | ||||||||||
| chatglm-6b | chatglm | はい | 985 | |||||||||||||
| チンチラ-70b | deepmind | いいえ | 0.808 | 0.774 | 0.675 | 0.749 | ||||||||||
| Codex-12b / code-cushman-001 | Openai | いいえ | 0.317 | |||||||||||||
| codegen-16b-mono | Salesforce | はい | 0.293 | |||||||||||||
| codegen-16b-multi | Salesforce | はい | 0.183 | |||||||||||||
| codegx-13b | ツィンガ大学 | いいえ | 0.229 | |||||||||||||
| Dolly-V2-12B | Databricks | はい | 944 | 0.710 | 0.622 | |||||||||||
| Eleuther-Pythia-7B | エレウターライ | はい | 0.667 | 0.667 | 0.265 | 0.198 | 0.661 | |||||||||
| Eleuther-Pythia-12b | エレウターライ | はい | 0.704 | 0.704 | 0.253 | 0.233 | 0.638 | |||||||||
| ファルコン-7b | tii | はい | 0.781 | 0.350 | ||||||||||||
| ファルコン-40b | tii | はい | 0.853 | 0.527 | ||||||||||||
| FastChat-T5-3B | lmsys.org | はい | 951 | |||||||||||||
| GAL-120B | メタAI | いいえ | 0.526 | |||||||||||||
| GPT-3-7B /キュリー | Openai | いいえ | 0.682 | 0.243 | ||||||||||||
| GPT-3-175B / Davinci | Openai | いいえ | 0.793 | 0.789 | 0.439 | 0.702 | ||||||||||
| GPT-3.5-175B / TEXT-DAVINCI-003 | Openai | いいえ | 0.822 | 0.834 | 0.481 | 0.762 | 0.569 | 0.758 | 0.816 | |||||||
| GPT-3.5-175B / code-davinci-002 | Openai | いいえ | 0.463 | |||||||||||||
| GPT-4 | Openai | いいえ | 0.953 | 0.670 | 0.864 | 0.875 | ||||||||||
| gpt4all-13b-snoozy | NOMIC AI | はい | 0.750 | 0.713 | ||||||||||||
| GPT-NEOX-20B | エレウターライ | はい | 0.718 | 0.719 | 0.719 | 0.269 | 0.276 | 0.347 | ||||||||
| GPT-J-6B | エレウターライ | はい | 0.663 | 0.683 | 0.683 | 0.261 | 0.249 | 0.234 | ||||||||
| Koala-13b | バークレー・ベア | いいえ | 1082 | 0.726 | 0.688 | |||||||||||
| llama-7b | メタAI | いいえ | 0.738 | 0.105 | 0.738 | 0.302 | 0.443 | 0.701 | ||||||||
| llama-13b | メタAI | いいえ | 932 | 0.792 | 0.158 | 0.730 | ||||||||||
| llama-33b | メタAI | いいえ | 0.828 | 0.217 | 0.760 | |||||||||||
| llama-65b | メタAI | いいえ | 0.842 | 0.237 | 0.634 | 0.770 | ||||||||||
| llama-2-70b | メタAI | はい | 0.873 | 0.698 | ||||||||||||
| MPT-7B | MOSAICML | はい | 0.761 | 0.702 | 0.296 | 0.343 | ||||||||||
| Oasst-Pythia-12b | オープンアシスタント | はい | 1065 | 0.681 | 0.650 | |||||||||||
| OPT-7B | メタAI | いいえ | 0.677 | 0.677 | 0.251 | 0.227 | ||||||||||
| OPT-13B | メタAI | いいえ | 0.692 | 0.692 | 0.257 | 0.282 | ||||||||||
| OPT-66B | メタAI | いいえ | 0.745 | 0.276 | ||||||||||||
| OPT-175B | メタAI | いいえ | 0.791 | 0.318 | ||||||||||||
| パーム-62b | Google Research | いいえ | 0.770 | |||||||||||||
| パーム-540b | Google Research | いいえ | 0.838 | 0.834 | 0.836 | 0.262 | 0.779 | 0.818 | 0.693 | 0.814 | 0.811 | 0.837 | 0.851 | |||
| Palm-Coder-540b | Google Research | いいえ | 0.359 | |||||||||||||
| Palm-2-S | Google Research | いいえ | 0.820 | 0.807 | 0.752 | 0.779 | ||||||||||
| Palm-2-s* | Google Research | いいえ | 0.376 | |||||||||||||
| Palm-2-M | Google Research | いいえ | 0.840 | 0.837 | 0.817 | 0.792 | ||||||||||
| Palm-2-L | Google Research | いいえ | 0.868 | 0.869 | 0.861 | 0.830 | ||||||||||
| PALM-2-L-Instruct | Google Research | いいえ | 0.909 | |||||||||||||
| REPLIT-CODE-V1-3B | レプリット | はい | 0.219 | |||||||||||||
| Stablelm-base-alpha-7b | 安定性AI | はい | 0.412 | 0.533 | 0.251 | 0.049 | 0.501 | |||||||||
| Stablelm-Tuned-Alpha-7B | 安定性AI | いいえ | 858 | 0.536 | 0.548 | |||||||||||
| StarCoder-Base-16B | ビッグコード | はい | 0.304 | |||||||||||||
| StarCoder-16B | ビッグコード | はい | 0.336 | |||||||||||||
| Vicuna-13b | lmsys.org | いいえ | 1169 |
| ベンチマーク名 | 著者 | リンク | 説明 |
|---|---|---|---|
| チャットボットアリーナエロ | lmsys | https://lmsys.org/blog/2023-05-03-Arena/ | 「このブログ投稿では、クラウドソーシングの方法で匿名のランダム化された戦いを特徴とするLLMベンチマークプラットフォームであるChatbot Arenaを紹介します。ChatbotArenaは、チェスやその他の競争力のあるゲームで広く使用されている評価システムであるELOレーティングシステムを採用しています。」 (出典:https://lmsys.org/blog/2023-05-03-Arena/) |
| Hellaswag | Zellers et al。 | https://arxiv.org/abs/1905.07830v1 | 「Hellaswagは、最先端のモデルにとって特に難しいCommonsense NLIを評価するための課題データセットですが、その質問は人間にとって些細なことです(> 95%の精度)。」 (出典:https://paperswithcode.com/dataset/hellaswag) |
| 人間 | チェン等。 | https://arxiv.org/abs/2107.03374v2 | 「ドキュストリングからプログラムを統合するための機能的正しさを測定していました。164の元のプログラミングの問題、言語理解、アルゴリズム、および単純な数学の評価で構成され、いくつかの単純なソフトウェアインタビューの質問に匹敵します。」 (出典:https://paperswithcode.com/dataset/humaneval) |
| ランバダ | Paperno et al。 | https://arxiv.org/abs/1606.06031 | 「ランバダは、単語の予測タスクによるテキスト理解のための計算モデルの能力を評価します。ランバダは、人間の被験者がパッセージ全体にさらされている場合に最後の単語を推測できる特徴を共有する物語のパッセージのコレクションですが、ターゲットワードに先行する最後の文を見る場合はランバダで成功することはできません。 (出典:https://huggingface.co/datasets/lambada) |
| mmlu | Hendrycks et al。 | https://github.com/hendrycks/test | 「ベンチマークは、STEM、人文科学、社会科学などを越えた57の被験者をカバーしています。初等レベルから高度な専門レベルまで困難に及び、世界の知識と問題解決能力の両方をテストします。科目は、数学や歴史などの伝統的な領域から、より専門的な分野、より専門的な分野、法律や倫理の理想を識別します。 (出典: "https://paperswithcode.com/dataset/mmlu") |
| Triviaqa | ジョシら。 | https://arxiv.org/abs/1705.03551v2 | 「私たちは、65万人以上の質問アンウェーと証拠のトリプルを含む挑戦的な読解データセットであるTriviaqaを提示します。Triviaqaには、Trivia愛好家が作成した95kの質問回答ペアが含まれており、平均して6つの質問を1人に合わせて、質問に答えるために高品質の遠い監督を提供します。」 (出典:https://arxiv.org/abs/1705.03551v2) |
| ウィノグランデ | Sakaguchi et al。 | https://arxiv.org/abs/1907.10641v2 | 「元のWSCデザインに触発された44K [エキスパート操作代名詞解像度]の問題の大規模なデータセットですが、データセットのスケールと硬度の両方を改善するように調整されました。」 (出典:https://arxiv.org/abs/1907.10641v2) |
私たちはいつも貢献に満足しています!以下で貢献できます。
Open LLMSの商業用使用とFinetuningの概要に興味がある場合は、Open-LLMSリポジトリをご覧ください。
このリーダーボードの結果は、モデル著者の個々の論文と公開された結果から収集されます。報告された値ごとに、ソースはリンクとして追加されます。
次のページに感謝します:
上記の情報が間違っている可能性があります。公開されたモデルを商業用に使用する場合は、弁護士に連絡してください。