Объединенное сообщество усилий по созданию одного центрального таблицы лидеров для LLMS. Взносы и исправления приветствуются!
Мы ссылаемся на «открытую» модель, если она может быть развернута и использована для коммерческих целей.
https://llm-leaderboard.streamlit.app/
https://huggingface.co/spaces/ludwigstumpp/llm-leaderboard
| Название модели | Издатель | Открыть? | Чатбот Арена Эло | Hellaswag (несколько выстрелов) | Hellaswag (нулевой выстрел) | Hellaswag (один выстрел) | Humaneval-Python (Pass@1) | Ламбада (нулевой выстрел) | Ламбада (один выстрел) | MMLU (нулевой выстрел) | MMLU (несколько выстрелов) | Viriviaqa (нулевой выстрел) | Viriviaqa (один выстрел) | Winogrande (нулевой выстрел) | Winogrande (один выстрел) | Winogrande (несколько выстрелов) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| альпака-7B | Стэнфорд | нет | 0,739 | 0,661 | ||||||||||||
| Альпака-13b | Стэнфорд | нет | 1008 | |||||||||||||
| Bloom-176b | Большой | да | 0,744 | 0,155 | 0,299 | |||||||||||
| Cerebras-GPT-7b | Церебра | да | 0,636 | 0,636 | 0,259 | 0,141 | ||||||||||
| Cerebras-GPT-13b | Церебра | да | 0,635 | 0,635 | 0,258 | 0,146 | ||||||||||
| Чатглм-6B | Чатглм | да | 985 | |||||||||||||
| Chinchilla-70b | Глубокий | нет | 0,808 | 0,774 | 0,675 | 0,749 | ||||||||||
| Codex-12b / code-cushman-001 | Openai | нет | 0,317 | |||||||||||||
| Codegen-16b-Mono | Salesforce | да | 0,293 | |||||||||||||
| Codegen-16b-multi | Salesforce | да | 0,183 | |||||||||||||
| CODEGX-13B | Университет Цингхуа | нет | 0,229 | |||||||||||||
| Долли-V2-12B | DataBricks | да | 944 | 0,710 | 0,622 | |||||||||||
| Eleuther-Pythia-7b | Eleutherai | да | 0,667 | 0,667 | 0,265 | 0,198 | 0,661 | |||||||||
| Eleuther-Pythia-12b | Eleutherai | да | 0,704 | 0,704 | 0,253 | 0,233 | 0,638 | |||||||||
| Falcon-7b | ТИИ | да | 0,781 | 0,350 | ||||||||||||
| Falcon-40b | ТИИ | да | 0,853 | 0,527 | ||||||||||||
| FASTCHAT-T5-3B | Lmsys.org | да | 951 | |||||||||||||
| GAL-120B | Meta ai | нет | 0,526 | |||||||||||||
| GPT-3-7B / CURIE | Openai | нет | 0,682 | 0,243 | ||||||||||||
| GPT-3-175B / Davinci | Openai | нет | 0,793 | 0,789 | 0,439 | 0,702 | ||||||||||
| GPT-3.5-175B / Text-Davinci-003 | Openai | нет | 0,822 | 0,834 | 0,481 | 0,762 | 0,569 | 0,758 | 0,816 | |||||||
| GPT-3.5-175b / code-davinci-002 | Openai | нет | 0,463 | |||||||||||||
| GPT-4 | Openai | нет | 0,953 | 0,670 | 0,864 | 0,875 | ||||||||||
| GPT4all-13b-Snoozy | Номинальный ИИ | да | 0,750 | 0,713 | ||||||||||||
| GPT-neox-20b | Eleutherai | да | 0,718 | 0,719 | 0,719 | 0,269 | 0,276 | 0,347 | ||||||||
| GPT-J-6B | Eleutherai | да | 0,663 | 0,683 | 0,683 | 0,261 | 0,249 | 0,234 | ||||||||
| Коала-13b | Беркли Баир | нет | 1082 | 0,726 | 0,688 | |||||||||||
| Лама-7B | Meta ai | нет | 0,738 | 0,105 | 0,738 | 0,302 | 0,443 | 0,701 | ||||||||
| Лама-13b | Meta ai | нет | 932 | 0,792 | 0,158 | 0,730 | ||||||||||
| Llama-33b | Meta ai | нет | 0,828 | 0,217 | 0,760 | |||||||||||
| Llama-65b | Meta ai | нет | 0,842 | 0,237 | 0,634 | 0,770 | ||||||||||
| Лама-2-70b | Meta ai | да | 0,873 | 0,698 | ||||||||||||
| MPT-7B | Mosaicml | да | 0,761 | 0,702 | 0,296 | 0,343 | ||||||||||
| OASST-PYTHIA-12B | Открытый помощник | да | 1065 | 0,681 | 0,650 | |||||||||||
| Opt-7b | Meta ai | нет | 0,677 | 0,677 | 0,251 | 0,227 | ||||||||||
| OPT-13B | Meta ai | нет | 0,692 | 0,692 | 0,257 | 0,282 | ||||||||||
| Opt-66b | Meta ai | нет | 0,745 | 0,276 | ||||||||||||
| Opt-175b | Meta ai | нет | 0,791 | 0,318 | ||||||||||||
| Palm-62b | Google Research | нет | 0,770 | |||||||||||||
| Palm-540b | Google Research | нет | 0,838 | 0,834 | 0,836 | 0,262 | 0,779 | 0,818 | 0,693 | 0,814 | 0,811 | 0,837 | 0,851 | |||
| Palm-Coder-540b | Google Research | нет | 0,359 | |||||||||||||
| Palm-2-S. | Google Research | нет | 0,820 | 0,807 | 0,752 | 0,779 | ||||||||||
| Palm-2-S* | Google Research | нет | 0,376 | |||||||||||||
| Palm-2-M | Google Research | нет | 0,840 | 0,837 | 0,817 | 0,792 | ||||||||||
| Palm-2-L | Google Research | нет | 0,868 | 0,869 | 0,861 | 0,830 | ||||||||||
| PALM-2-L-произведение | Google Research | нет | 0,909 | |||||||||||||
| Repit-Code-V1-3b | Применение | да | 0,219 | |||||||||||||
| Stablelm-Base-Alpha-7b | Стабильность AI | да | 0,412 | 0,533 | 0,251 | 0,049 | 0,501 | |||||||||
| Stablelm-Tuned-Alpha-7b | Стабильность AI | нет | 858 | 0,536 | 0,548 | |||||||||||
| Starcoder-Base-16b | Большой код | да | 0,304 | |||||||||||||
| StarCoder-16B | Большой код | да | 0,336 | |||||||||||||
| Vicuna-13b | Lmsys.org | нет | 1169 |
| Эталонное название | Автор | Связь | Описание |
|---|---|---|---|
| Чатбот Арена Эло | Lmsys | https://lmsys.org/blog/2023-05-03-arena/ | «В этом сообщении мы представляем Chatbot Arena, эталонную платформу LLM с анонимными рандомизированными битвами в краудсорсинговой манере. Chatbot Arena принимает систему рейтинга ELO, которая является широко используемой системой оценки в шахматах и других конкурентных играх». (Источник: https://lmsys.org/blog/2023-05-03-arena/) |
| Hellaswag | Zellers et al. | https://arxiv.org/abs/1905.07830V1 | «Hellaswag-это набор данных для оценки NLI Commonsense, который особенно трудно для современных моделей, хотя его вопросы тривиальны для людей (> 95% точности)». (Источник: https://paperswithcode.com/dataset/hellaswag) |
| Гуманевал | Chen et al. | https://arxiv.org/abs/2107.03374v2 | «Он использовал для измерения функциональной правильности для синтеза программ от DocStrings. Он состоит из 164 оригинальных задач программирования, оценки понимания языка, алгоритмов и простой математики, с некоторыми сопоставимыми с простыми вопросами интервьюирования программного обеспечения». (Источник: https://paperswithcode.com/dataset/humaneval) |
| Ламбада | Paperno et al. | https://arxiv.org/abs/1606.06031 | «Ламбада оценивает возможности вычислительных моделей для понимания текста с помощью задачи прогнозирования слов. Ламбада представляет собой набор повествовательных отрывков, разделяющих характеристику того, что люди могут угадать свое последнее слово, если они подвергаются воздействию всего отрывка, но не если только они видят последнее предложение, предшествующее целевому слову. Чтобы добиться успеха на ламбаде, вычислительные модели не могут быть в локальном контексте, но обязательно следят за тем, но обязательно не могут быть в локации, но не могут быть в курсе. (Источник: https://huggingface.co/datasets/lambada) |
| MMLU | Hendrycks et al. | https://github.com/hendrycks/test | «Триконт охватывает 57 субъектов по всему STEM, гуманитарных наук, социальных наук и многого другого. Он находится в сложности от элементарного уровня до продвинутого профессионального уровня, и он проверяет как мировые знания, так и способность решать проблемы. Субъекты варьируются от традиционных областей, таких как математика и история, до более специализированных областей, таких как закон и этики. (Источник: "https://paperswithcode.com/dataset/mmlu") |
| Витривиака | Joshi et al. | https://arxiv.org/abs/1705.03551v2 | «Мы представляем Triviaqa, сложный набор данных по пониманию прочитанного, содержащий более 650 тысяч тройки вопросов-ответов. (Источник: https://arxiv.org/abs/1705.03551v2) |
| Winogrande | Sakaguchi et al. | https://arxiv.org/abs/1907.10641v2 | «Крупный набор данных из 44 тыс. [Проблемы с решением проведения экспертов], вдохновленный исходным дизайном WSC, но скорректирован для улучшения как масштаба, так и твердости набора данных». (Источник: https://arxiv.org/abs/1907.10641v2) |
Мы всегда рады за вклад! Вы можете внести свой вклад в следующее:
Если вы заинтересованы в обзоре об открытых LLMS для коммерческого использования и создания, ознакомьтесь с репозиторием Open-LLMS.
Результаты этого таблицы лидеров собираются из отдельных работ и опубликованные результаты авторов модели. Для каждого сообщаемого значения источник добавляется в виде ссылки.
Особая благодарность на следующие страницы:
Выше информация может быть неправильной. Если вы хотите использовать опубликованную модель для коммерческого использования, пожалуйста, свяжитесь с адвокатом.