Eine gemeinsame Gemeinschaftsanstrengung, eine zentrale Rangliste für LLMs zu schaffen. Beiträge und Korrekturen willkommen!
Wir verweisen auf ein Modell, das "offen" ist, wenn es lokal eingesetzt und für kommerzielle Zwecke verwendet werden kann.
https://llm-leaderboard.streamlit.app/
https://huggingface.co/spaces/ludwigstumpp/llm-leaderboard
| Modellname | Herausgeber | Offen? | Chatbot Arena Elo | Hellaswag (wenige Schüsse) | Hellaswag (Zero-Shot) | Hellaswag (One-Shot) | Humaner-Python (Pass@1) | Lambada (Zero-Shot) | Lambada (One-Shot) | MMLU (Null-Shot) | Mmlu (wenige Schüsse) | Triviaqa (Null-Shot) | Triviaqa (One-Shot) | Winogrande (Null-Shot) | Winogrande (One-Shot) | Winogrande (wenige Schüsse) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Alpaca-7b | Stanford | NEIN | 0,739 | 0,661 | ||||||||||||
| Alpaca-13b | Stanford | NEIN | 1008 | |||||||||||||
| Bloom-176b | BigScience | Ja | 0,744 | 0,155 | 0,299 | |||||||||||
| Cerebras-GPT-7b | Cerebras | Ja | 0,636 | 0,636 | 0,259 | 0,141 | ||||||||||
| Cerebras-GPT-13b | Cerebras | Ja | 0,635 | 0,635 | 0,258 | 0,146 | ||||||||||
| Chatglm-6b | Chatglm | Ja | 985 | |||||||||||||
| Chinchilla-70b | Deepmind | NEIN | 0,808 | 0,774 | 0,675 | 0,749 | ||||||||||
| Codex-12b / Code-Cushman-001 | Openai | NEIN | 0,317 | |||||||||||||
| Codegen-16b-mono | Salesforce | Ja | 0,293 | |||||||||||||
| Codegen-16b-Multi | Salesforce | Ja | 0,183 | |||||||||||||
| Codegx-13b | Tsinghua Universität | NEIN | 0,229 | |||||||||||||
| Dolly-V2-12b | Datenbank | Ja | 944 | 0,710 | 0,622 | |||||||||||
| Eleuther-Pythia-7b | Eleutherai | Ja | 0,667 | 0,667 | 0,265 | 0,198 | 0,661 | |||||||||
| Eleuther-Pythia-12b | Eleutherai | Ja | 0,704 | 0,704 | 0,253 | 0,233 | 0,638 | |||||||||
| Falcon-7b | Tii | Ja | 0,781 | 0,350 | ||||||||||||
| Falcon-40b | Tii | Ja | 0,853 | 0,527 | ||||||||||||
| Fastchat-T5-3b | Lmsys.org | Ja | 951 | |||||||||||||
| gal-120b | Meta Ai | NEIN | 0,526 | |||||||||||||
| GPT-3-7B / CURIE | Openai | NEIN | 0,682 | 0,243 | ||||||||||||
| GPT-3-175B / Davinci | Openai | NEIN | 0,793 | 0,789 | 0,439 | 0,702 | ||||||||||
| GPT-3,5-175B / Text-Davinci-003 | Openai | NEIN | 0,822 | 0,834 | 0,481 | 0,762 | 0,569 | 0,758 | 0,816 | |||||||
| GPT-3.5-175B / Code-Davinci-002 | Openai | NEIN | 0,463 | |||||||||||||
| GPT-4 | Openai | NEIN | 0,953 | 0,670 | 0,864 | 0,875 | ||||||||||
| gpt4all-13b-snoozy | Nomic ai | Ja | 0,750 | 0,713 | ||||||||||||
| GPT-NEOX-20B | Eleutherai | Ja | 0,718 | 0,719 | 0,719 | 0,269 | 0,276 | 0,347 | ||||||||
| GPT-J-6B | Eleutherai | Ja | 0,663 | 0,683 | 0,683 | 0,261 | 0,249 | 0,234 | ||||||||
| Koala-13b | Berkeley Bair | NEIN | 1082 | 0,726 | 0,688 | |||||||||||
| Lama-7b | Meta Ai | NEIN | 0,738 | 0,105 | 0,738 | 0,302 | 0,443 | 0,701 | ||||||||
| LAMA-13B | Meta Ai | NEIN | 932 | 0,792 | 0,158 | 0,730 | ||||||||||
| Lama-33b | Meta Ai | NEIN | 0,828 | 0,217 | 0,760 | |||||||||||
| Lama-65b | Meta Ai | NEIN | 0,842 | 0,237 | 0,634 | 0,770 | ||||||||||
| LAMA-2-70B | Meta Ai | Ja | 0,873 | 0,698 | ||||||||||||
| MPT-7B | Mosaicml | Ja | 0,761 | 0,702 | 0,296 | 0,343 | ||||||||||
| Oasst-Pythia-12b | Offener Assistent | Ja | 1065 | 0,681 | 0,650 | |||||||||||
| opt-7b | Meta Ai | NEIN | 0,677 | 0,677 | 0,251 | 0,227 | ||||||||||
| opt-13b | Meta Ai | NEIN | 0,692 | 0,692 | 0,257 | 0,282 | ||||||||||
| opt-66b | Meta Ai | NEIN | 0,745 | 0,276 | ||||||||||||
| opt-175b | Meta Ai | NEIN | 0,791 | 0,318 | ||||||||||||
| Palm-62b | Google -Forschung | NEIN | 0,770 | |||||||||||||
| Palm-540b | Google -Forschung | NEIN | 0,838 | 0,834 | 0,836 | 0,262 | 0,779 | 0,818 | 0,693 | 0,814 | 0,811 | 0,837 | 0,851 | |||
| Palm-Coder-540b | Google -Forschung | NEIN | 0,359 | |||||||||||||
| Palm-2-s | Google -Forschung | NEIN | 0,820 | 0,807 | 0,752 | 0,779 | ||||||||||
| Palm-2-s* | Google -Forschung | NEIN | 0,376 | |||||||||||||
| Palm-2-m | Google -Forschung | NEIN | 0,840 | 0,837 | 0,817 | 0,792 | ||||||||||
| palm-2-l | Google -Forschung | NEIN | 0,868 | 0,869 | 0,861 | 0,830 | ||||||||||
| Palm-2-l-Instruktur | Google -Forschung | NEIN | 0,909 | |||||||||||||
| Replit-Code-V1-3b | Reaktion | Ja | 0,219 | |||||||||||||
| Stablelm-Base-Alpha-7b | Stabilität AI | Ja | 0,412 | 0,533 | 0,251 | 0,049 | 0,501 | |||||||||
| Stablelm-Tuned-Alpha-7b | Stabilität AI | NEIN | 858 | 0,536 | 0,548 | |||||||||||
| StarCoder-Base-16b | Bigcode | Ja | 0,304 | |||||||||||||
| STARCODER-16B | Bigcode | Ja | 0,336 | |||||||||||||
| Vicuna-13b | Lmsys.org | NEIN | 1169 |
| Benchmark -Name | Autor | Link | Beschreibung |
|---|---|---|---|
| Chatbot Arena Elo | LMSYS | https://lmsys.org/blog/2023-05-03-arenena/ | "In diesem Blog-Beitrag stellen wir Chatbot Arena vor, eine LLM-Benchmark-Plattform mit anonymen randomisierten Schlachten in Crowdsourced. Die Chatbot-Arena übernimmt das ELO-Bewertungssystem, das ein weit verbreitetes Bewertungssystem für Schach- und andere Wettbewerbsspiele ist." (Quelle: https://lmsys.org/blog/2023-05-03-arena/) |
| Hellaswag | Zellers et al. | https://arxiv.org/abs/1905.07830v1 | "Hellaswag ist ein Herausforderungsdatensatz für die Bewertung von Commonsense-NLI, die für modernste Modelle besonders schwierig ist, obwohl seine Fragen für den Menschen trivial sind (> 95% Genauigkeit)." (Quelle: https://paperswithcode.com/dataset/hellaswag) |
| Humaneral | Chen et al. | https://arxiv.org/abs/2107.03374v2 | "Es wurde verwendet, um die funktionale Korrektheit für die Synthese von Programmen aus Docstrings zu messen. Es besteht aus 164 ursprünglichen Programmierproblemen, der Bewertung des Sprachverständnisses, der Algorithmen und der einfachen Mathematik, mit einigen vergleichbaren Fragen zu einfachen Software -Interviewfragen." (Quelle: https://paperswithcode.com/dataset/humaneval) |
| Lambada | Paperno et al. | https://arxiv.org/abs/1606.06031 | "Die Lambada bewertet die Fähigkeiten von Rechenmodellen für das Textverständnis einer Wortvorhersageaufgabe. Lambada ist eine Sammlung von Erzählpassagen, die das Merkmal teilen, dass menschliche Probanden in der Lage sind, ihr letztes Wort zu erraten, wenn sie der gesamten Passage ausgesetzt sind, aber wenn sie nur den letzten Satz vor dem Ziel des Ziels haben. (Quelle: https://huggingface.co/datasets/lambada) |
| MMLU | Hendrycks et al. | https://github.com/hendrycks/test | "Der Benchmark deckt 57 Probanden in den STEM, den Geisteswissenschaften, den Sozialwissenschaften und mehr ab. Es reicht von Schwierigkeiten von elementarer Ebene bis hin zu fortgeschrittener professioneller Ebene und testet sowohl das weltweite Wissen als auch die Problemlösung. (Quelle: "https://paperswithcode.com/dataset/mmlu")) |
| Triviaqa | Joshi et al. | https://arxiv.org/abs/1705.03551v2 | "Wir präsentieren Triviaqa, einen herausfordernden Leseverständnis-Datensatz, der über 650.000 Frage-Antworten-Evidence-Tripel enthält. Triviaqa enthält 95.000 Fragen-Antwortenpaare, die von Trivia-Enthusiasten verfasst wurden, und unabhängig voneinander gesammelte Beweisdokumente, sechs Perfragen im Durchschnitt, die hochwertige Aufsichtsaufsicht bieten, die hochwertige Aufsicht enthält, die eine hochwertige Aufsichtsaufsicht bieten, die die Fragen beantworten, um die Fragen zu beantworten." (Quelle: https://arxiv.org/abs/1705.03551v2) |
| Winogrande | Sakaguchi et al. | https://arxiv.org/abs/1907.10641v2 | "Ein groß angelegter Datensatz von 44K [Experten-erstellte Pronomenauflösung], inspiriert vom ursprünglichen WSC-Design, wurde jedoch so angepasst, dass sie sowohl die Skala als auch die Härte des Datensatzes verbessern." (Quelle: https://arxiv.org/abs/1907.10641v2) |
Wir freuen uns immer über Beiträge! Sie können den folgenden Beitrag leisten:
Wenn Sie an einem Überblick über Open LLMs für die kommerzielle Nutzung und Finetuning interessiert sind, lesen Sie das Open-LlMS-Repository.
Die Ergebnisse dieser Rangliste stammen aus den einzelnen Papieren und veröffentlichten Ergebnisse der Modellautoren. Für jeden gemeldeten Wert wird die Quelle als Link hinzugefügt.
Besonderer Dank geht an die folgenden Seiten:
Die obigen Informationen können falsch sein. Wenn Sie ein veröffentlichtes Modell für den kommerziellen Gebrauch verwenden möchten, wenden Sie sich bitte an einen Anwalt.