Un effort communautaire conjoint pour créer un classement central pour les LLM. Les contributions et les corrections sont les bienvenus!
Nous nous référons à un modèle «ouvert» s'il peut être déployé localement et utilisé à des fins commerciales.
https://llm-leaderboard.streamlit.app/
https://huggingface.co/spaces/ludwigstumpp/llm-leaderboard
| Nom du modèle | Éditeur | Ouvrir? | Chatbot Arena Elo | Hellaswag (quelques coups) | Hellaswag (zéro-shot) | Hellaswag (one-shot) | Humaneval-python (pass @ 1) | Lambada (zéro-shot) | Lambada (one-shot) | MMLU (zéro-shot) | MMLU (quelques coups) | Triviaqa (zéro-shot) | Triviaqa (One-Shot) | Winogrande (zéro-shot) | Winogrande (One-Shot) | Winogrande (à quelques coups) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| alpaca-7b | Stanford | Non | 0,739 | 0,661 | ||||||||||||
| alpaga-13b | Stanford | Non | 1008 | |||||||||||||
| Bloom-176b | Bigscience | Oui | 0,744 | 0,155 | 0,299 | |||||||||||
| cerebras-GPT-7b | Cérébras | Oui | 0,636 | 0,636 | 0,259 | 0.141 | ||||||||||
| cerebras-GPT-13b | Cérébras | Oui | 0,635 | 0,635 | 0,258 | 0.146 | ||||||||||
| chatglm-6b | Chatglm | Oui | 985 | |||||||||||||
| chinchilla-70b | Profondeur | Non | 0,808 | 0,774 | 0,675 | 0,749 | ||||||||||
| CODEX-12B / CODE-CUSHMAN-001 | Openai | Non | 0,317 | |||||||||||||
| Codegen-16b-mono | Salesforce | Oui | 0,293 | |||||||||||||
| CodeGen-16b-Multi | Salesforce | Oui | 0,183 | |||||||||||||
| codegx-13b | Université Tsinghua | Non | 0,229 | |||||||||||||
| Dolly-V2-12B | Databricks | Oui | 944 | 0,710 | 0,622 | |||||||||||
| eleuther-pythia-7b | Eleutherai | Oui | 0,667 | 0,667 | 0,265 | 0.198 | 0,661 | |||||||||
| eleuther-pythie-12b | Eleutherai | Oui | 0,704 | 0,704 | 0,253 | 0,233 | 0,638 | |||||||||
| Falcon-7B | Tii | Oui | 0,781 | 0,350 | ||||||||||||
| Falcon-40b | Tii | Oui | 0,853 | 0,527 | ||||||||||||
| FastChat-T5-3B | Lmsys.org | Oui | 951 | |||||||||||||
| GAL-120B | Meta Ai | Non | 0,526 | |||||||||||||
| GPT-3-7B / Curie | Openai | Non | 0,682 | 0,243 | ||||||||||||
| GPT-3-175B / DAVINCI | Openai | Non | 0,793 | 0,789 | 0,439 | 0,702 | ||||||||||
| GPT-3.5-175B / Text-Davinci-003 | Openai | Non | 0,822 | 0,834 | 0,481 | 0,762 | 0,569 | 0,758 | 0,816 | |||||||
| GPT-3.5-175B / Code-Davinci-002 | Openai | Non | 0,463 | |||||||||||||
| gpt-4 | Openai | Non | 0,953 | 0,670 | 0,864 | 0,875 | ||||||||||
| gpt4all-13b-snoozy | Nomic Ai | Oui | 0,750 | 0,713 | ||||||||||||
| gpt-neox-20b | Eleutherai | Oui | 0,718 | 0,719 | 0,719 | 0,269 | 0,276 | 0,347 | ||||||||
| GPT-J-6B | Eleutherai | Oui | 0,663 | 0,683 | 0,683 | 0,261 | 0,249 | 0,234 | ||||||||
| koala-13b | Berkeley Bair | Non | 1082 | 0,726 | 0,688 | |||||||||||
| lama-7b | Meta Ai | Non | 0,738 | 0.105 | 0,738 | 0,302 | 0,443 | 0,701 | ||||||||
| lama-13b | Meta Ai | Non | 932 | 0,792 | 0,158 | 0,730 | ||||||||||
| lama-33b | Meta Ai | Non | 0,828 | 0,217 | 0,760 | |||||||||||
| LLAMA-65B | Meta Ai | Non | 0,842 | 0,237 | 0,634 | 0,770 | ||||||||||
| lama-2-70b | Meta Ai | Oui | 0,873 | 0,698 | ||||||||||||
| MPT-7B | Mosaïque | Oui | 0,761 | 0,702 | 0,296 | 0,343 | ||||||||||
| oasst-pythia-12b | Assistant ouvert | Oui | 1065 | 0,681 | 0,650 | |||||||||||
| opt-7b | Meta Ai | Non | 0,677 | 0,677 | 0,251 | 0,227 | ||||||||||
| opt-13b | Meta Ai | Non | 0,692 | 0,692 | 0,257 | 0,282 | ||||||||||
| Opt-66b | Meta Ai | Non | 0,745 | 0,276 | ||||||||||||
| OPT-175B | Meta Ai | Non | 0,791 | 0,318 | ||||||||||||
| Palm-62b | Recherche Google | Non | 0,770 | |||||||||||||
| PALM-540B | Recherche Google | Non | 0,838 | 0,834 | 0,836 | 0,262 | 0,779 | 0,818 | 0,693 | 0,814 | 0,811 | 0,837 | 0,851 | |||
| coder de palmier-540b | Recherche Google | Non | 0,359 | |||||||||||||
| palm-2-s | Recherche Google | Non | 0,820 | 0,807 | 0,752 | 0,779 | ||||||||||
| palm-2-s * | Recherche Google | Non | 0,376 | |||||||||||||
| palm-2-m | Recherche Google | Non | 0,840 | 0,837 | 0,817 | 0,792 | ||||||||||
| palm-2-l | Recherche Google | Non | 0,868 | 0,869 | 0,861 | 0,830 | ||||||||||
| PALM-2-L-INSTRUCT | Recherche Google | Non | 0,909 | |||||||||||||
| Replit-Code-V1-3B | Repérer | Oui | 0,219 | |||||||||||||
| stablelm-bas-alpha-7b | Stabilité ai | Oui | 0,412 | 0,533 | 0,251 | 0,049 | 0,501 | |||||||||
| stablelm-tuned-alpha-7b | Stabilité ai | Non | 858 | 0,536 | 0,548 | |||||||||||
| Starcoder-Base-16B | Bigcode | Oui | 0,304 | |||||||||||||
| Starcoder-16b | Bigcode | Oui | 0,336 | |||||||||||||
| vicuna-13b | Lmsys.org | Non | 1169 |
| Nom de référence | Auteur | Lien | Description |
|---|---|---|---|
| Chatbot Arena Elo | LMSYS | https://lmsys.org/blog/2023-05-03-arena/ | "Dans cet article de blog, nous présentons Chatbot Arena, une plate-forme de référence LLM avec des batailles randomisées anonymes de manière crowdsourcée. Chatbot Arena adopte le système de notation ELO, qui est un système de notation largement utilisé dans les échecs et autres jeux compétitifs." (Source: https://lmsys.org/blog/2023-05-03-arena/) |
| Hellaswag | Zellers et al. | https://arxiv.org/abs/1905.07830v1 | "Hellaswag est un ensemble de données de défi pour évaluer le NLI de bon sens qui est particulièrement difficile pour les modèles de pointe, bien que ses questions soient triviales pour les humains (> une précision à 95%)." (Source: https://paperswithcode.com/dataset/hellaswag) |
| Humain | Chen et al. | https://arxiv.org/abs/2107.03374v2 | "Il était utilisé pour mesurer l'exactitude fonctionnelle pour la synthèse des programmes de docstrings. Il se compose de 164 problèmes de programmation originaux, d'évaluation de la compréhension du langage, des algorithmes et des mathématiques simples, avec des questions d'interview logicielles simples." (Source: https://paperswithcode.com/dataset/humaneval) |
| Lambada | Paperno et al. | https://arxiv.org/abs/1606.06031 | "La Lambada évalue les capacités des modèles de calcul pour la compréhension du texte au moyen d'une tâche de prédiction de mots. Lambada est une collection de passages narratifs partageant la caractéristique selon laquelle les sujets humains sont capables de deviner leur dernier mot si elles sont exposées à l'ensemble du passage, mais pas si elles ne voient que la dernière phrase précède le mot cible. Pour réussir sur la lambada, les modèles computationnels ne peuvent pas s'arrêter sur le contexte local, mais devoir être capable de garder les informations sur le suivi des informations sur" les modèles computationnels. (Source: https://huggingface.co/datasets/lambada) |
| MMLU | Hendrycks et al. | https://github.com/hendrycks/test | "La référence couvre 57 sujets à travers les STEM, les sciences humaines, les sciences sociales, etc. (Source: "https://paperswithcode.com/dataset/mmlu") |
| Triviaqa | Joshi et al. | https://arxiv.org/abs/1705.03551v2 | "Nous présentons Triviaqa, un ensemble de données de compréhension en lecture difficile contenant plus de 650 000 triples de questions-réponses. Triviaqa comprend 95k de paires de questions-réponses rédigées par des enthousiastes de Trivia et des documents de preuve recueillis indépendamment, six par question en moyenne, qui fournissent une supervision distante de haute qualité pour répondre aux questions." (Source: https://arxiv.org/abs/1705.03551v2) |
| Winogrande | Sakaguchi et al. | https://arxiv.org/abs/1907.10641v2 | "Un ensemble de données à grande échelle de problèmes de 44k [résolution du pronom conçu par expert], inspiré par la conception WSC d'origine, mais ajusté pour améliorer à la fois l'échelle et la dureté de l'ensemble de données." (Source: https://arxiv.org/abs/1907.10641v2) |
Nous sommes toujours heureux des contributions! Vous pouvez contribuer par ce qui suit:
Si vous êtes intéressé par un aperçu de l'Open LLMS pour une utilisation commerciale et des finetuning, consultez le référentiel Open-LLMS.
Les résultats de ce classement sont collectés dans les articles individuels et les résultats publiés des auteurs du modèle. Pour chaque valeur rapportée, la source est ajoutée en tant que lien.
Un merci spécial aux pages suivantes:
Les informations ci-dessus peuvent être erronées. Si vous souhaitez utiliser un modèle publié à usage commercial, veuillez contacter un avocat.