ความพยายามของชุมชนร่วมในการสร้างลีดเดอร์บอร์ดกลางหนึ่งใบสำหรับ LLMS ยินดีต้อนรับการมีส่วนร่วมและการแก้ไข!
เราอ้างถึงรูปแบบที่ "เปิด" หากสามารถนำไปใช้งานได้ในพื้นที่และใช้เพื่อวัตถุประสงค์ทางการค้า
https://llm-eleaderboard.streamlit.app/
https://huggingface.co/spaces/ludwigstumpp/llm-leaderboard
| ชื่อนางแบบ | ผู้จัดพิมพ์ | เปิด? | Chatbot Arena Elo | Hellaswag (ไม่กี่นัด) | Hellaswag (zero-shot) | Hellaswag (One-shot) | Humaneval-Python (ผ่าน@1) | Lambada (zero-shot) | Lambada (One-shot) | MMLU (zero-shot) | MMLU (ไม่กี่นัด) | Triviaqa (zero-shot) | Triviaqa (One-shot) | Winogrande (zero-shot) | Winogrande (One-shot) | Winogrande (ไม่กี่นัด) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Alpaca-7b | สแตนฟอร์ด | เลขที่ | 0.739 | 0.661 | ||||||||||||
| Alpaca-13b | สแตนฟอร์ด | เลขที่ | 1008 | |||||||||||||
| Bloom-176b | ความสำคัญ | ใช่ | 0.744 | 0.155 | 0.299 | |||||||||||
| Cerebras-GPT-7B | สมอง | ใช่ | 0.636 | 0.636 | 0.259 | 0.141 | ||||||||||
| Cerebras-GPT-13B | สมอง | ใช่ | 0.635 | 0.635 | 0.258 | 0.146 | ||||||||||
| chatglm-6b | chatglm | ใช่ | 985 | |||||||||||||
| Chinchilla-70b | ใจลึก | เลขที่ | 0.808 | 0.774 | 0.675 | 0.749 | ||||||||||
| codex-12b / code-cushman-001 | Openai | เลขที่ | 0.317 | |||||||||||||
| Codegen-16b-mono | พนักงานขาย | ใช่ | 0.293 | |||||||||||||
| codegen-16b-multi | พนักงานขาย | ใช่ | 0.183 | |||||||||||||
| codegx-13b | มหาวิทยาลัย Tsinghua | เลขที่ | 0.229 | |||||||||||||
| Dolly-V2-12B | Databricks | ใช่ | 944 | 0.710 | 0.622 | |||||||||||
| Eleuther-Pythia-7b | เอเลเฮอร์ | ใช่ | 0.667 | 0.667 | 0.265 | 0.198 | 0.661 | |||||||||
| Eleuther-Pythia-12b | เอเลเฮอร์ | ใช่ | 0.704 | 0.704 | 0.253 | 0.233 | 0.638 | |||||||||
| Falcon-7b | TII | ใช่ | 0.781 | 0.350 | ||||||||||||
| Falcon-40b | TII | ใช่ | 0.853 | 0.527 | ||||||||||||
| FastChat-T5-3B | lmsys.org | ใช่ | 951 | |||||||||||||
| Gal-120b | Meta AI | เลขที่ | 0.526 | |||||||||||||
| gpt-3-7b / curie | Openai | เลขที่ | 0.682 | 0.243 | ||||||||||||
| GPT-3-175B / DAVINCI | Openai | เลขที่ | 0.793 | 0.789 | 0.439 | 0.702 | ||||||||||
| GPT-3.5-175B / TEXT-DAVINCI-003 | Openai | เลขที่ | 0.822 | 0.834 | 0.481 | 0.762 | 0.569 | 0.758 | 0.816 | |||||||
| GPT-3.5-175B / CODE-DAVINCI-002 | Openai | เลขที่ | 0.463 | |||||||||||||
| GPT-4 | Openai | เลขที่ | 0.953 | 0.670 | 0.864 | 0.875 | ||||||||||
| gpt4all-13b-snoozy | NOMIC AI | ใช่ | 0.750 | 0.713 | ||||||||||||
| GPT-NEOX-20B | เอเลเฮอร์ | ใช่ | 0.718 | 0.719 | 0.719 | 0.269 | 0.276 | 0.347 | ||||||||
| GPT-J-6B | เอเลเฮอร์ | ใช่ | 0.663 | 0.683 | 0.683 | 0.261 | 0.249 | 0.234 | ||||||||
| Koala-13b | Berkeley Bair | เลขที่ | 1082 | 0.726 | 0.688 | |||||||||||
| LLAMA-7B | Meta AI | เลขที่ | 0.738 | 0.105 | 0.738 | 0.302 | 0.443 | 0.701 | ||||||||
| llama-13b | Meta AI | เลขที่ | 932 | 0.792 | 0.158 | 0.730 | ||||||||||
| llama-33b | Meta AI | เลขที่ | 0.828 | 0.217 | 0.760 | |||||||||||
| LLAMA-65B | Meta AI | เลขที่ | 0.842 | 0.237 | 0.634 | 0.770 | ||||||||||
| LLAMA-2-70B | Meta AI | ใช่ | 0.873 | 0.698 | ||||||||||||
| MPT-7B | กระเบื้องโมเสค | ใช่ | 0.761 | 0.702 | 0.296 | 0.343 | ||||||||||
| Oasst-Pythia-12b | ผู้ช่วยเปิด | ใช่ | 1065 | 0.681 | 0.650 | |||||||||||
| opt-7b | Meta AI | เลขที่ | 0.677 | 0.677 | 0.251 | 0.227 | ||||||||||
| opt-13b | Meta AI | เลขที่ | 0.692 | 0.692 | 0.257 | 0.282 | ||||||||||
| opt-66b | Meta AI | เลขที่ | 0.745 | 0.276 | ||||||||||||
| opt-175b | Meta AI | เลขที่ | 0.791 | 0.318 | ||||||||||||
| ปาล์ม -62b | Google Research | เลขที่ | 0.770 | |||||||||||||
| Palm-540b | Google Research | เลขที่ | 0.838 | 0.834 | 0.836 | 0.262 | 0.779 | 0.818 | 0.693 | 0.814 | 0.811 | 0.837 | 0.851 | |||
| Palm-Coder-540B | Google Research | เลขที่ | 0.359 | |||||||||||||
| ปาล์ม 2-S | Google Research | เลขที่ | 0.820 | 0.807 | 0.752 | 0.779 | ||||||||||
| Palm-2-S* | Google Research | เลขที่ | 0.376 | |||||||||||||
| ปาล์ม -2-m | Google Research | เลขที่ | 0.840 | 0.837 | 0.817 | 0.792 | ||||||||||
| ปาล์ม -2-L | Google Research | เลขที่ | 0.868 | 0.869 | 0.861 | 0.830 | ||||||||||
| Palm-2-L-Instruct | Google Research | เลขที่ | 0.909 | |||||||||||||
| Replit-Code-V1-3B | คำสั่ง | ใช่ | 0.219 | |||||||||||||
| Stablelm-base-alpha-7b | ความมั่นคง AI | ใช่ | 0.412 | 0.533 | 0.251 | 0.049 | 0.501 | |||||||||
| Stablelm-tuned-alpha-7b | ความมั่นคง AI | เลขที่ | 858 | 0.536 | 0.548 | |||||||||||
| Starcoder-Base-16b | BigCode | ใช่ | 0.304 | |||||||||||||
| starcoder-16b | BigCode | ใช่ | 0.336 | |||||||||||||
| Vicuna-13b | lmsys.org | เลขที่ | 1169 |
| ชื่อมาตรฐาน | ผู้เขียน | การเชื่อมโยง | คำอธิบาย |
|---|---|---|---|
| Chatbot Arena Elo | LMSYS | https://lmsys.org/blog/2023-05-03-arena/ | "ในโพสต์บล็อกนี้เราแนะนำ Chatbot Arena ซึ่งเป็นแพลตฟอร์มเกณฑ์มาตรฐาน LLM ที่มีการต่อสู้แบบสุ่มแบบไม่ระบุชื่อในลักษณะที่ระดมทุน Chatbot Arena ใช้ระบบการจัดอันดับ ELO ซึ่งเป็นระบบจัดอันดับที่ใช้กันอย่างแพร่หลายในหมากรุกและเกมการแข่งขันอื่น ๆ " (ที่มา: https://lmsys.org/blog/2023-05-03-arena/) |
| Hellaswag | Zellers และคณะ | https://arxiv.org/abs/1905.07830V1 | "Hellaswag เป็นชุดข้อมูลที่ท้าทายสำหรับการประเมิน NLI ที่เป็นพิเศษซึ่งยากเป็นพิเศษสำหรับแบบจำลองที่ทันสมัยแม้ว่าคำถามของมันจะเป็นเรื่องเล็กน้อยสำหรับมนุษย์ (> 95% ความแม่นยำ)" (ที่มา: https://paperswithcode.com/dataset/hellaswag) |
| เกี่ยวกับมนุษย์ | เฉินและคณะ | https://arxiv.org/abs/2107.03374V2 | "มันใช้ในการวัดความถูกต้องในการใช้งานสำหรับโปรแกรมสังเคราะห์จากเอกสารประกอบด้วยปัญหาการเขียนโปรแกรมดั้งเดิม 164 ครั้งการประเมินความเข้าใจภาษาอัลกอริทึมและคณิตศาสตร์ง่าย (ที่มา: https://paperswithcode.com/dataset/humaneval) |
| Lambada | Paperno และคณะ | https://arxiv.org/abs/1606.06031 | "Lambada ประเมินความสามารถของแบบจำลองการคำนวณสำหรับการทำความเข้าใจข้อความโดยใช้งานการทำนายคำ Lambada เป็นคอลเลกชันของข้อความบรรยายที่แบ่งปันลักษณะที่ว่าวิชามนุษย์สามารถเดาคำสุดท้ายของพวกเขาได้ (ที่มา: https://huggingface.co/datasets/lambada) |
| mmlu | Hendrycks และคณะ | https://github.com/hendrycks/test | "เกณฑ์มาตรฐานครอบคลุม 57 วิชาทั่วลำต้นมนุษยศาสตร์สังคมศาสตร์และอื่น ๆ มันมีความยากลำบากตั้งแต่ระดับประถมศึกษาไปจนถึงระดับมืออาชีพขั้นสูงและการทดสอบความรู้และความสามารถในการแก้ปัญหาของโลก (ที่มา: "https://paperswithcode.com/dataset/mmlu") |
| เรื่องไม่สำคัญ | Joshi et al. | https://arxiv.org/abs/1705.03551v2 | "เรานำเสนอ Triviaqa ซึ่งเป็นชุดข้อมูลความเข้าใจที่ท้าทายที่มีมากกว่า 650K คำถามตอบคำถามสามประการ Triviaqa รวมคู่คำถามตอบคำถาม 95k ที่ประพันธ์โดยผู้ที่ชื่นชอบเรื่องไม่สำคัญ (ที่มา: https://arxiv.org/abs/1705.03551v2) |
| Winogrande | Sakaguchi และคณะ | https://arxiv.org/abs/1907.10641v2 | "ชุดข้อมูลขนาดใหญ่ของ 44K [การแก้ไขคำสรรพนามที่ทำขึ้นมาจากผู้เชี่ยวชาญ] ซึ่งได้รับแรงบันดาลใจจากการออกแบบ WSC ดั้งเดิม แต่ปรับเพื่อปรับปรุงทั้งขนาดและความแข็งของชุดข้อมูล" (ที่มา: https://arxiv.org/abs/1907.10641v2) |
เรามีความสุขเสมอสำหรับการมีส่วนร่วม! คุณสามารถมีส่วนร่วมได้โดยสิ่งต่อไปนี้:
หากคุณมีความสนใจในภาพรวมเกี่ยวกับ Open LLMs สำหรับการใช้งานเชิงพาณิชย์และ Finetuning ให้ตรวจสอบที่เก็บ Open-LLMS
ผลลัพธ์ของลีดเดอร์บอร์ดนี้ถูกรวบรวมจากเอกสารแต่ละฉบับและตีพิมพ์ผลลัพธ์ของผู้เขียนโมเดล สำหรับแต่ละค่าที่รายงานแหล่งที่มาจะถูกเพิ่มเป็นลิงค์
ขอขอบคุณเป็นพิเศษสำหรับหน้าต่อไปนี้:
ข้อมูลข้างต้นอาจผิด หากคุณต้องการใช้รูปแบบที่เผยแพร่เพื่อใช้ในเชิงพาณิชย์โปรดติดต่อทนายความ