Um esforço conjunto da comunidade para criar uma tabela de classificação central para o LLMS. Contribuições e correções são bem -vindas!
Nós nos referimos a um modelo sendo "aberto" se ele puder ser implantado localmente e usado para fins comerciais.
https://llm-leaderboard.streamlit.app/
https://huggingface.co/spaces/ludwigstumpp/llm-leaderboard
| Nome do modelo | Editor | Abrir? | Chatbot Arena Elo | Hellaswag (poucos anos) | Hellaswag (zero-shot) | Hellaswag (um tiro) | Humaneval-python (Pass@1) | Lambada (zero-shot) | Lambada (um tiro) | Mmlu (zero tiro) | Mmlu (poucos anos) | Triviaqa (Zero-Shot) | Triviaqa (um tiro) | Winogrande (Zero-Shot) | Winogrande (um tiro) | Winogrande (poucos anos) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ALPACA-7B | Stanford | não | 0,739 | 0,661 | ||||||||||||
| ALPACA-13B | Stanford | não | 1008 | |||||||||||||
| Bloom-176b | Bigscience | sim | 0,744 | 0,155 | 0,299 | |||||||||||
| Cerebras-Gpt-7b | Cerebras | sim | 0,636 | 0,636 | 0,259 | 0,141 | ||||||||||
| Cerebras-GPT-13B | Cerebras | sim | 0,635 | 0,635 | 0,258 | 0,146 | ||||||||||
| Chatglm-6b | Chatglm | sim | 985 | |||||||||||||
| Chinchilla-70b | DeepMind | não | 0,808 | 0,774 | 0,675 | 0,749 | ||||||||||
| Codex-12b / Code-Cushman-001 | Openai | não | 0,317 | |||||||||||||
| CodeGen-16b-mono | Salesforce | sim | 0,293 | |||||||||||||
| CodeGen-16B-Multi | Salesforce | sim | 0,183 | |||||||||||||
| CodeGX-13B | Universidade de Tsinghua | não | 0,229 | |||||||||||||
| Dolly-V2-12b | Databricks | sim | 944 | 0,710 | 0,622 | |||||||||||
| Eleuther-pythia-7b | Eleutherai | sim | 0,667 | 0,667 | 0,265 | 0,198 | 0,661 | |||||||||
| Eleuther-Pythia-12b | Eleutherai | sim | 0,704 | 0,704 | 0,253 | 0,233 | 0,638 | |||||||||
| Falcon-7b | Tii | sim | 0,781 | 0,350 | ||||||||||||
| Falcon-40b | Tii | sim | 0,853 | 0,527 | ||||||||||||
| FastChat-T5-3b | Lmsys.org | sim | 951 | |||||||||||||
| Gal-120b | Meta ai | não | 0,526 | |||||||||||||
| GPT-3-7B / Curie | Openai | não | 0,682 | 0,243 | ||||||||||||
| GPT-3-175B / DaVinci | Openai | não | 0,793 | 0,789 | 0,439 | 0,702 | ||||||||||
| GPT-3.5-175B / Text-Davinci-003 | Openai | não | 0,822 | 0,834 | 0,481 | 0,762 | 0,569 | 0,758 | 0,816 | |||||||
| GPT-3.5-175B / Code-Davinci-002 | Openai | não | 0,463 | |||||||||||||
| GPT-4 | Openai | não | 0,953 | 0,670 | 0,864 | 0,875 | ||||||||||
| Gpt4all-13b-Snoozy | Nomic ai | sim | 0,750 | 0,713 | ||||||||||||
| GPT-Neox-20b | Eleutherai | sim | 0,718 | 0,719 | 0,719 | 0,269 | 0,276 | 0,347 | ||||||||
| GPT-J-6B | Eleutherai | sim | 0,663 | 0,683 | 0,683 | 0,261 | 0,249 | 0,234 | ||||||||
| Koala-13b | Berkeley Bair | não | 1082 | 0,726 | 0,688 | |||||||||||
| llama-7b | Meta ai | não | 0,738 | 0,105 | 0,738 | 0,302 | 0,443 | 0,701 | ||||||||
| LLAMA-13B | Meta ai | não | 932 | 0,792 | 0,158 | 0,730 | ||||||||||
| LLAMA-33B | Meta ai | não | 0,828 | 0,217 | 0,760 | |||||||||||
| LLAMA-65B | Meta ai | não | 0,842 | 0,237 | 0,634 | 0,770 | ||||||||||
| LLAMA-2-70B | Meta ai | sim | 0,873 | 0,698 | ||||||||||||
| MPT-7B | Mosaicml | sim | 0,761 | 0,702 | 0,296 | 0,343 | ||||||||||
| Oasst-Pythia-12b | Assistente aberto | sim | 1065 | 0,681 | 0,650 | |||||||||||
| Opt-7b | Meta ai | não | 0,677 | 0,677 | 0,251 | 0,227 | ||||||||||
| Opt-13b | Meta ai | não | 0,692 | 0,692 | 0,257 | 0,282 | ||||||||||
| OPT-66B | Meta ai | não | 0,745 | 0,276 | ||||||||||||
| Opt-175b | Meta ai | não | 0,791 | 0,318 | ||||||||||||
| Palm-62b | Pesquisa do Google | não | 0,770 | |||||||||||||
| Palm-540b | Pesquisa do Google | não | 0,838 | 0,834 | 0,836 | 0,262 | 0,779 | 0,818 | 0,693 | 0,814 | 0,811 | 0,837 | 0,851 | |||
| Codificador de palma-540b | Pesquisa do Google | não | 0,359 | |||||||||||||
| palm-2-s | Pesquisa do Google | não | 0,820 | 0,807 | 0,752 | 0,779 | ||||||||||
| palm-2-s* | Pesquisa do Google | não | 0,376 | |||||||||||||
| Palm-2-m | Pesquisa do Google | não | 0,840 | 0,837 | 0,817 | 0,792 | ||||||||||
| palm-2-l | Pesquisa do Google | não | 0,868 | 0,869 | 0,861 | 0,830 | ||||||||||
| PALM-2-L-INSTRUTA | Pesquisa do Google | não | 0,909 | |||||||||||||
| Replit-Code-V1-3b | Replite | sim | 0,219 | |||||||||||||
| Stablelm-Base-Alpha-7b | Estabilidade ai | sim | 0,412 | 0,533 | 0,251 | 0,049 | 0,501 | |||||||||
| Stablelm Tuned-alpha-7b | Estabilidade ai | não | 858 | 0,536 | 0,548 | |||||||||||
| Starcoder-Base-16b | BigCode | sim | 0,304 | |||||||||||||
| Starcoder-16b | BigCode | sim | 0,336 | |||||||||||||
| Vicuna-13b | Lmsys.org | não | 1169 |
| Nome da referência | Autor | Link | Descrição |
|---|---|---|---|
| Chatbot Arena Elo | Lmsys | https://lmsys.org/blog/2023-05-03-arena/ | "Nesta postagem do blog, apresentamos a Chatbot Arena, uma plataforma de referência LLM com batalhas randomizadas anônimas de maneira crowdsourcida. Chatbot Arena adota o sistema de classificação ELO, que é um sistema de classificação amplamente usado no xadrez e outros jogos competitivos". (Fonte: https://lmsys.org/blog/2023-05-03-arena/) |
| Hellaswag | Zellers et al. | https://arxiv.org/abs/1905.07830v1 | "A Hellaswag é um conjunto de dados de desafio para avaliar o NLI do senso comum, especialmente difícil para os modelos de ponta, embora suas perguntas sejam triviais para os seres humanos (> 95% de precisão)". (Fonte: https://paperswithcode.com/dataset/hellaswag) |
| Humaneval | Chen et al. | https://arxiv.org/abs/2107.03374v2 | "Ele costumava medir a correção funcional para sintetizar programas a partir de DocStrings. Consiste em 164 problemas de programação originais, avaliando a compreensão da linguagem, algoritmos e matemática simples, com algumas perguntas comparáveis às simples entrevistas de software". (Fonte: https://paperswithcode.com/dataset/humaneval) |
| Lambada | Paperno et al. | https://arxiv.org/abs/1606.06031 | "O Lambada avalia as capacidades dos modelos computacionais para o entendimento do texto por meio de uma tarefa de previsão de palavras. Lambada é uma coleção de passagens narrativas que compartilham a característica de que os seres humanos são capazes de adivinhar sua última palavra se forem expostos a toda a passagem, mas não visto que a última sentença seja precedente da palavra -alvo. Para ter sucesso em toda discurso. " (Fonte: https://huggingface.co/datasets/lambada) |
| Mmlu | Hendrycks et al. | https://github.com/hendrycks/test | "A referência abrange 57 assuntos em todo o tronco, as humanidades, as ciências sociais e muito mais. Ele varia de dificuldade de nível elementar a um nível profissional avançado, e testa o conhecimento mundial e a capacidade de resolução de problemas. (Fonte: "https://paperswithcode.com/dataset/mmlu") |
| Triviaqa | Joshi et al. | https://arxiv.org/abs/1705.03551v2 | "Apresentamos triviaqa, um conjunto de dados desafiador de compreensão de leitura que contém mais de 650 mil triplos de perguntas e evidências. Triviaqa inclui pares de 95 mil perguntas de respostas de autoria de entusiastas de trivia e, independentemente, reuniram documentos de evidência, seis por pergunta, em média, que fornecem supervisão distante de qualidade para responder às perguntas". (Fonte: https://arxiv.org/abs/1705.03551v2) |
| Winogrande | Sakaguchi et al. | https://arxiv.org/abs/1907.10641v2 | "Um conjunto de dados em larga escala de problemas de 44K [resolução de pronome artesanal], inspirado no design original do WSC, mas ajustado para melhorar a escala e a dureza do conjunto de dados". (Fonte: https://arxiv.org/abs/1907.10641v2) |
Estamos sempre felizes por contribuições! Você pode contribuir com o seguinte:
Se você estiver interessado em uma visão geral sobre o Open LLMS para uso comercial e finetuning, consulte o repositório Open-LLMS.
Os resultados desta tabela de classificação são coletados dos trabalhos individuais e publicados dos autores de modelos. Para cada valor relatado, a fonte é adicionada como um link.
Agradecimentos especiais às seguintes páginas:
As informações acima podem estar erradas. Se você deseja usar um modelo publicado para uso comercial, entre em contato com um advogado.