llm leaderboard
1.0.0
LLM을위한 중앙 리더 보드 하나를 만들기위한 공동 커뮤니티 노력. 기부금과 수정을 환영합니다!
우리는 로컬로 배포되어 상업적 목적으로 사용될 수있는 모델이 "열린"것을 지칭합니다.
https://llm-leaderboard.streamlit.app/
https://huggingface.co/spaces/ludwigstumpp/llm-leaderboard
| 모델 이름 | 발행자 | 열려 있는? | 챗봇 경기장 엘로 | Hellaswag (몇 샷) | Hellaswag (Zero-샷) | Hellaswag (원샷) | Humaneval-Python (Pass@1) | 람다 (Zero-샷) | Lambada (원샷) | MMLU (제로 샷) | MMLU (몇 샷) | Triviaqa (제로 샷) | Triviaqa (원샷) | Winogrande (제로 샷) | Winogrande (원샷) | Winogrande (몇 샷) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 알파카 -7b | 스탠포드 | 아니요 | 0.739 | 0.661 | ||||||||||||
| 알파카 -13b | 스탠포드 | 아니요 | 1008 | |||||||||||||
| 블룸 -176b | 큰 과학 | 예 | 0.744 | 0.155 | 0.299 | |||||||||||
| 뇌 GPT-7B | 뇌 | 예 | 0.636 | 0.636 | 0.259 | 0.141 | ||||||||||
| 뇌 GPT-13B | 뇌 | 예 | 0.635 | 0.635 | 0.258 | 0.146 | ||||||||||
| chatglm-6b | chatglm | 예 | 985 | |||||||||||||
| 친칠라 -70b | 심해 | 아니요 | 0.808 | 0.774 | 0.675 | 0.749 | ||||||||||
| Codex-12B / Code-Cushman-001 | Openai | 아니요 | 0.317 | |||||||||||||
| Codegen-16b-mono | Salesforce | 예 | 0.293 | |||||||||||||
| Codegen-16B-Multi | Salesforce | 예 | 0.183 | |||||||||||||
| CodeGX-13B | Tsinghua University | 아니요 | 0.229 | |||||||||||||
| 돌리 -V2-12B | Databricks | 예 | 944 | 0.710 | 0.622 | |||||||||||
| Eleuther-Pythia-7b | Eleutherai | 예 | 0.667 | 0.667 | 0.265 | 0.198 | 0.661 | |||||||||
| Eleuther-Pythia-12B | Eleutherai | 예 | 0.704 | 0.704 | 0.253 | 0.233 | 0.638 | |||||||||
| 팔콘 -7b | tii | 예 | 0.781 | 0.350 | ||||||||||||
| 팔콘 -40b | tii | 예 | 0.853 | 0.527 | ||||||||||||
| FASTCHAT-T5-3B | lmsys.org | 예 | 951 | |||||||||||||
| GAL-1220B | 메타 ai | 아니요 | 0.526 | |||||||||||||
| GPT-3-7B / CURE | Openai | 아니요 | 0.682 | 0.243 | ||||||||||||
| GPT-3-175B / Davinci | Openai | 아니요 | 0.793 | 0.789 | 0.439 | 0.702 | ||||||||||
| GPT-3.5-175B / TEXT-DAVINCI-003 | Openai | 아니요 | 0.822 | 0.834 | 0.481 | 0.762 | 0.569 | 0.758 | 0.816 | |||||||
| GPT-3.5-175B / Code-Davinci-002 | Openai | 아니요 | 0.463 | |||||||||||||
| GPT-4 | Openai | 아니요 | 0.953 | 0.670 | 0.864 | 0.875 | ||||||||||
| gpt4all-13b-snoozy | nomic ai | 예 | 0.750 | 0.713 | ||||||||||||
| GPT-NEOX-20B | Eleutherai | 예 | 0.718 | 0.719 | 0.719 | 0.269 | 0.276 | 0.347 | ||||||||
| GPT-J-6B | Eleutherai | 예 | 0.663 | 0.683 | 0.683 | 0.261 | 0.249 | 0.234 | ||||||||
| 코알라 -13b | 버클리 베어 | 아니요 | 1082 | 0.726 | 0.688 | |||||||||||
| llama-7b | 메타 ai | 아니요 | 0.738 | 0.105 | 0.738 | 0.302 | 0.443 | 0.701 | ||||||||
| llama-13b | 메타 ai | 아니요 | 932 | 0.792 | 0.158 | 0.730 | ||||||||||
| llama-33b | 메타 ai | 아니요 | 0.828 | 0.217 | 0.760 | |||||||||||
| llama-65b | 메타 ai | 아니요 | 0.842 | 0.237 | 0.634 | 0.770 | ||||||||||
| LLAMA-2-70B | 메타 ai | 예 | 0.873 | 0.698 | ||||||||||||
| MPT-7B | 모자이크 | 예 | 0.761 | 0.702 | 0.296 | 0.343 | ||||||||||
| OASST-PYSHIA-12B | 오픈 조수 | 예 | 1065 | 0.681 | 0.650 | |||||||||||
| OPT-7B | 메타 ai | 아니요 | 0.677 | 0.677 | 0.251 | 0.227 | ||||||||||
| OPT-13B | 메타 ai | 아니요 | 0.692 | 0.692 | 0.257 | 0.282 | ||||||||||
| OPT-66B | 메타 ai | 아니요 | 0.745 | 0.276 | ||||||||||||
| OPT-175B | 메타 ai | 아니요 | 0.791 | 0.318 | ||||||||||||
| 팜 -62B | Google 연구 | 아니요 | 0.770 | |||||||||||||
| Palm-540B | Google 연구 | 아니요 | 0.838 | 0.834 | 0.836 | 0.262 | 0.779 | 0.818 | 0.693 | 0.814 | 0.811 | 0.837 | 0.851 | |||
| 팜 코더 -540b | Google 연구 | 아니요 | 0.359 | |||||||||||||
| 손바닥 2-s | Google 연구 | 아니요 | 0.820 | 0.807 | 0.752 | 0.779 | ||||||||||
| palm-2-s* | Google 연구 | 아니요 | 0.376 | |||||||||||||
| 손바닥 -2-m | Google 연구 | 아니요 | 0.840 | 0.837 | 0.817 | 0.792 | ||||||||||
| 팜 -2-l | Google 연구 | 아니요 | 0.868 | 0.869 | 0.861 | 0.830 | ||||||||||
| 손바닥 2-l- 강조 | Google 연구 | 아니요 | 0.909 | |||||||||||||
| REPLIT-CODE-V1-3B | 대답 | 예 | 0.219 | |||||||||||||
| 스타블 렐름베이스-알파 -7b | 안정성 ai | 예 | 0.412 | 0.533 | 0.251 | 0.049 | 0.501 | |||||||||
| Stablelm-Tuned-Alpha-7b | 안정성 ai | 아니요 | 858 | 0.536 | 0.548 | |||||||||||
| 스타 코더-베이스 -16b | 큰 코드 | 예 | 0.304 | |||||||||||||
| 스타 코더 -16b | 큰 코드 | 예 | 0.336 | |||||||||||||
| Vicuna-13b | lmsys.org | 아니요 | 1169 |
| 벤치 마크 이름 | 작가 | 링크 | 설명 |
|---|---|---|---|
| 챗봇 경기장 엘로 | lmsys | https://lmsys.org/blog/2023-05-03-arena/ | "이 블로그 게시물에서 우리는 익명 무작위 전투를 특징으로하는 LLM 벤치 마크 플랫폼 인 Chatbot Arena를 소개합니다. Chatbot Arena는 체스 및 기타 경쟁 게임에서 널리 사용되는 등급 시스템 인 ELO 등급 시스템을 채택합니다." (출처 : https://lmsys.org/blog/2023-05-03-arena/) |
| Hellaswag | Zellers et al. | https://arxiv.org/abs/1905.07830v1 | "Hellaswag는 최첨단 모델에 특히 어려운 상식 NLI를 평가하기위한 과제 데이터 세트입니다. (출처 : https://paperswithcode.com/dataset/hellaswag) |
| Humaneval | Chen et al. | https://arxiv.org/abs/2107.03374v2 | "Docstrings의 프로그램을 합성하기위한 기능적 정확성을 측정하는 데 사용되었습니다. 164 개의 원래 프로그래밍 문제, 언어 이해력, 알고리즘 및 간단한 수학 평가로 구성되며 간단한 소프트웨어 인터뷰 질문과 비슷합니다." (출처 : https://paperswithcode.com/dataset/humaneval) |
| 람다 | Paperno et al. | https://arxiv.org/abs/1606.06031 | "Lambada는 단어 예측 과제를 통해 텍스트 이해를위한 계산 모델의 능력을 평가합니다. Lambada는 인간의 주제가 전체 구절에 노출된다면 마지막 단어에 노출된다면 마지막 단어를 추측 할 수 있다는 특징을 공유하는 이야기의 모음입니다. 그러나 Lambada에 대한 마지막 문장만을 보는 것만으로도 마지막 문장을 추적 할 수는 없지만, Lambada에 의존 할 수는 없습니다. 담론. " (출처 : https://huggingface.co/datasets/lambada) |
| MMLU | Hendryck et al. | https://github.com/hendryck/test | "벤치 마크는 STEM, 인문학, 사회 과학 등의 57 명의 피험자를 다룹니다. 초등학교 수준에서 고급 전문가 수준으로 어려움이 있으며 세계 지식과 문제 해결 능력을 테스트합니다. 주제는 수학 및 역사와 같은 전통적인 영역에서 법률 및 윤리와 같은보다 특수한 영역에 이르기까지 다양한 주제를 식별 할 수 있습니다." (출처 : "https://paperswithcode.com/dataset/mmlu"))))) |
| Triviaqa | Joshi et al. | https://arxiv.org/abs/1705.03551v2 | "우리는 650k 이상의 질문 응답 트리플을 포함하는 도전적인 독해 데이터 세트 인 Triviaqa를 발표합니다. Triviaqa에는 퀴즈 애호가들이 저술 한 95k 질문 응답 쌍과 평균적으로 6 개의 질문 당 6 개가 독립적으로 수집 한 증거 문서가 포함되어있어 질문에 응답하기위한 고품질의 팽창 감독을 제공합니다." (출처 : https://arxiv.org/abs/1705.03551v2) |
| Winogrande | Sakaguchi et al. | https://arxiv.org/abs/1907.10641v2 | "원래 WSC 디자인에서 영감을 얻은 44K [전문가 크래프트 대명사 해상도] 문제의 대규모 데이터 세트는 데이터 세트의 스케일과 경도를 모두 개선하도록 조정되었습니다." (출처 : https://arxiv.org/abs/1907.10641v2) |
우리는 항상 기여에 행복합니다! 다음에 기여할 수 있습니다.
상업용 LLM에 대한 개방형 LLM에 대한 개요에 관심이 있으시면 Open-Llms 저장소를 확인하십시오.
이 리더 보드의 결과는 개별 논문에서 수집되고 모델 저자의 결과가 게시되었습니다. 보고 된 각 값에 대해 소스는 링크로 추가됩니다.
다음 페이지에 특별한 감사를드립니다.
위의 정보가 잘못 될 수 있습니다. 상업용 용도로 게시 된 모델을 사용하려면 변호사에게 문의하십시오.