Upaya komunitas bersama untuk membuat satu papan peringkat pusat untuk LLMS. Kontribusi dan koreksi selamat datang!
Kami merujuk pada model yang "terbuka" jika dapat digunakan secara lokal dan digunakan untuk tujuan komersial.
https://llm-leaderboard.streamlit.app/
https://huggingface.co/spaces/ludwigstumpp/llm-leaderboard
| Nama model | Penerbit | Membuka? | CHATBOT ARENA ELO | Hellaswag (beberapa shot) | Hellaswag (Zero-shot) | Hellaswag (One-shot) | Humaneval-python (lulus@1) | Lambada (Zero-shot) | Lambada (satu-shot) | MMLU (Zero-shot) | MMLU (beberapa shot) | Triviaqa (Zero-shot) | Triviaqa (satu-shot) | Winogrande (Zero-shot) | Winogrande (One-shot) | Winogrande (beberapa shot) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Alpaca-7b | Stanford | TIDAK | 0.739 | 0.661 | ||||||||||||
| Alpaca-13b | Stanford | TIDAK | 1008 | |||||||||||||
| Bloom-176b | BigScience | Ya | 0.744 | 0.155 | 0.299 | |||||||||||
| Cerebras-GPT-7B | Cerebras | Ya | 0.636 | 0.636 | 0.259 | 0.141 | ||||||||||
| Cerebras-GPT-13B | Cerebras | Ya | 0.635 | 0.635 | 0.258 | 0.146 | ||||||||||
| chatglm-6b | Chatglm | Ya | 985 | |||||||||||||
| Chinchilla-70b | DeepMind | TIDAK | 0.808 | 0.774 | 0.675 | 0.749 | ||||||||||
| codex-12b / code-cushman-001 | Openai | TIDAK | 0.317 | |||||||||||||
| codegen-16b-mono | Salesforce | Ya | 0.293 | |||||||||||||
| codegen-16b-multi | Salesforce | Ya | 0.183 | |||||||||||||
| codegx-13b | Universitas Tsinghua | TIDAK | 0.229 | |||||||||||||
| Dolly-V2-12B | Databricks | Ya | 944 | 0.710 | 0.622 | |||||||||||
| Eleuther-Pythia-7b | Eleutherai | Ya | 0.667 | 0.667 | 0.265 | 0.198 | 0.661 | |||||||||
| Eleuther-Pythia-12b | Eleutherai | Ya | 0.704 | 0.704 | 0.253 | 0.233 | 0.638 | |||||||||
| Falcon-7b | Tii | Ya | 0.781 | 0.350 | ||||||||||||
| Falcon-40b | Tii | Ya | 0.853 | 0,527 | ||||||||||||
| Fastchat-T5-3B | Lmsys.org | Ya | 951 | |||||||||||||
| Gal-120b | Meta AI | TIDAK | 0,526 | |||||||||||||
| GPT-3-7B / Curie | Openai | TIDAK | 0.682 | 0.243 | ||||||||||||
| GPT-3-175B / DAVinci | Openai | TIDAK | 0.793 | 0.789 | 0.439 | 0.702 | ||||||||||
| GPT-3.5-175B / TEXT-DAVINCI-003 | Openai | TIDAK | 0.822 | 0.834 | 0.481 | 0.762 | 0,569 | 0.758 | 0.816 | |||||||
| GPT-3.5-175B / CODE-DAVINCI-002 | Openai | TIDAK | 0.463 | |||||||||||||
| GPT-4 | Openai | TIDAK | 0.953 | 0.670 | 0.864 | 0.875 | ||||||||||
| gpt4all-13b-snoozy | AI NOMIC | Ya | 0.750 | 0.713 | ||||||||||||
| GPT-NEOX-20B | Eleutherai | Ya | 0.718 | 0.719 | 0.719 | 0.269 | 0.276 | 0.347 | ||||||||
| GPT-J-6B | Eleutherai | Ya | 0.663 | 0.683 | 0.683 | 0.261 | 0.249 | 0.234 | ||||||||
| Koala-13b | Berkeley Bair | TIDAK | 1082 | 0.726 | 0.688 | |||||||||||
| llama-7b | Meta AI | TIDAK | 0.738 | 0.105 | 0.738 | 0.302 | 0.443 | 0.701 | ||||||||
| llama-13b | Meta AI | TIDAK | 932 | 0.792 | 0.158 | 0.730 | ||||||||||
| llama-33b | Meta AI | TIDAK | 0.828 | 0.217 | 0.760 | |||||||||||
| llama-65b | Meta AI | TIDAK | 0.842 | 0.237 | 0.634 | 0.770 | ||||||||||
| llama-2-70b | Meta AI | Ya | 0.873 | 0.698 | ||||||||||||
| MPT-7B | Mosaicml | Ya | 0.761 | 0.702 | 0.296 | 0.343 | ||||||||||
| OASST-PYTHIA-12B | Buka Asisten | Ya | 1065 | 0.681 | 0.650 | |||||||||||
| opt-7b | Meta AI | TIDAK | 0.677 | 0.677 | 0.251 | 0.227 | ||||||||||
| opt-13b | Meta AI | TIDAK | 0.692 | 0.692 | 0.257 | 0.282 | ||||||||||
| opt-66b | Meta AI | TIDAK | 0.745 | 0.276 | ||||||||||||
| opt-175b | Meta AI | TIDAK | 0.791 | 0.318 | ||||||||||||
| Palm-62b | Penelitian Google | TIDAK | 0.770 | |||||||||||||
| Palm-540b | Penelitian Google | TIDAK | 0.838 | 0.834 | 0.836 | 0.262 | 0.779 | 0.818 | 0.693 | 0.814 | 0.811 | 0.837 | 0.851 | |||
| Palm-Coder-540b | Penelitian Google | TIDAK | 0.359 | |||||||||||||
| Palm-2-S | Penelitian Google | TIDAK | 0.820 | 0.807 | 0.752 | 0.779 | ||||||||||
| palm-2-s* | Penelitian Google | TIDAK | 0.376 | |||||||||||||
| Palm-2-m | Penelitian Google | TIDAK | 0.840 | 0.837 | 0.817 | 0.792 | ||||||||||
| Palm-2-l | Penelitian Google | TIDAK | 0.868 | 0.869 | 0.861 | 0.830 | ||||||||||
| Palm-2-L-Instruksi | Penelitian Google | TIDAK | 0,909 | |||||||||||||
| Repit-Code-V1-3B | Replit | Ya | 0.219 | |||||||||||||
| stablelm-base-alpha-7b | Stabilitas ai | Ya | 0.412 | 0,533 | 0.251 | 0,049 | 0.501 | |||||||||
| Stablelm-tuned-alpha-7b | Stabilitas ai | TIDAK | 858 | 0,536 | 0,548 | |||||||||||
| starcoder-base-16b | Bigcode | Ya | 0.304 | |||||||||||||
| starcoder-16b | Bigcode | Ya | 0.336 | |||||||||||||
| Vicuna-13b | Lmsys.org | TIDAK | 1169 |
| Nama Benchmark | Pengarang | Link | Keterangan |
|---|---|---|---|
| CHATBOT ARENA ELO | Lmsys | https://lmsys.org/blog/2023-05-03-arena/ | "Dalam posting blog ini, kami memperkenalkan Chatbot Arena, platform benchmark LLM yang menampilkan pertempuran acak anonim dengan cara crowdsourced. Chatbot Arena mengadopsi sistem peringkat ELO, yang merupakan sistem peringkat yang banyak digunakan dalam catur dan permainan kompetitif lainnya." (Sumber: https://lmsys.org/blog/2023-05-03-arena/) |
| Hellaswag | Zellers et al. | https://arxiv.org/abs/1905.07830v1 | "Hellaswag adalah dataset tantangan untuk mengevaluasi NLI akal sehat yang secara khusus sulit untuk model canggih, meskipun pertanyaannya sepele untuk manusia (> 95% akurasi)." (Sumber: https://paperswithcode.com/dataset/hellaswag) |
| Humaneval | Chen et al. | https://arxiv.org/abs/2107.03374v2 | "Ini digunakan untuk mengukur kebenaran fungsional untuk mensintesis program dari Docstrings. Ini terdiri dari 164 masalah pemrograman asli, menilai pemahaman bahasa, algoritma, dan matematika sederhana, dengan beberapa yang sebanding dengan pertanyaan wawancara perangkat lunak sederhana." (Sumber: https://paperswithcode.com/dataset/humaneval) |
| Lambada | Paperno et al. | https://arxiv.org/abs/1606.06031 | Lambada mengevaluasi kemampuan model komputasi untuk pemahaman teks dengan menggunakan tugas prediksi kata. Lambada adalah kumpulan bagian naratif yang berbagi karakteristik bahwa subyek manusia dapat menebak kata terakhir mereka jika mereka terpapar pada seluruh perikop, tetapi tidak jika mereka hanya melihat Kalimat Lama yang tepat pada KATA KEPADA KATA SARTE. wacana. " (Sumber: https://huggingface.co/datasets/lambada) |
| Mmlu | Hendrycks et al. | https://github.com/hendrycks/test | "Benchmark mencakup 57 subjek di seluruh STEM, Humaniora, Ilmu Sosial, dan banyak lagi. Ini berkisar dalam kesulitan dari tingkat dasar ke tingkat profesional yang maju, dan menguji baik pengetahuan dunia dan kemampuan pemecahan masalah. Subjek berkisar dari bidang tradisional, seperti halnya matematika dan sejarah, ke bidang yang lebih khusus seperti hukum dan etika. Granularitas dan penggembalaan yang lebih baik. (Sumber: "https://paperswithcode.com/dataset/mmlu") |
| Triviaqa | Joshi et al. | https://arxiv.org/abs/1705.03551v2 | "Kami menyajikan triviaqa, dataset pemahaman bacaan yang menantang yang berisi lebih dari 650k tanya jawab tiga kali lipat tiga. Triviaqa mencakup 95K pasangan tanya jawab yang ditulis oleh penggemar trivia dan dokumen bukti yang dikumpulkan secara independen, enam per pertanyaan rata-rata, yang memberikan pengawasan jauh berkualitas tinggi untuk menjawab pertanyaan." " (Sumber: https://arxiv.org/abs/1705.03551v2) |
| Winogrande | Sakaguchi et al. | https://arxiv.org/abs/1907.10641v2 | "Dataset skala besar dari masalah 44k [resolusi pronoun yang dibuat oleh ahli], terinspirasi oleh desain WSC asli, tetapi disesuaikan untuk meningkatkan skala dan kekerasan dataset." (Sumber: https://arxiv.org/abs/1907.10641v2) |
Kami selalu senang atas kontribusi! Anda dapat berkontribusi dengan berikut ini:
Jika Anda tertarik dengan ikhtisar tentang Open LLMS untuk penggunaan komersial dan finetuning, lihat repositori Open-LLMS.
Hasil papan peringkat ini dikumpulkan dari makalah individu dan hasil yang dipublikasikan dari penulis model. Untuk setiap nilai yang dilaporkan, sumber ditambahkan sebagai tautan.
Terima kasih khusus untuk halaman -halaman berikut:
Informasi di atas mungkin salah. Jika Anda ingin menggunakan model yang dipublikasikan untuk penggunaan komersial, silakan hubungi pengacara.