Un esfuerzo comunitario conjunto para crear una tabla de clasificación central para LLM. ¡Contribuciones y correcciones bienvenidas!
Nos referimos a que un modelo sea "abierto" si se puede implementar localmente y usarse con fines comerciales.
https://llm-leaderboard.streamlit.app/
https://huggingface.co/spaces/ludwigstumpp/llm-leaderboard
| Nombre del modelo | Editor | ¿Abierto? | Chatbot arena elo | HellaSwag (pocos disparos) | Helaswag (cero-shot) | HellaSwag (One-Shot) | Humaneval-Python (pase@1) | Lambada (disparo cero) | Lambada (un solo disparo) | MMLU (disparo cero) | Mmlu (pocos disparos) | Triviaqa (shot cero) | Triviaqa (One-Shot) | Winogrande (shot cero) | Winogrande (One-Shot) | Winogrande (pocos disparos) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Alpaca-7b | Stanford | No | 0.739 | 0.661 | ||||||||||||
| alpaca-13b | Stanford | No | 1008 | |||||||||||||
| Bloom-176b | Bigscience | Sí | 0.744 | 0.155 | 0.299 | |||||||||||
| cerebras-gpt-7b | Cerebras | Sí | 0.636 | 0.636 | 0.259 | 0.141 | ||||||||||
| cerebras-gpt-13b | Cerebras | Sí | 0.635 | 0.635 | 0.258 | 0.146 | ||||||||||
| chatglm-6b | Chatglm | Sí | 985 | |||||||||||||
| chinchilla-70b | Profundo | No | 0.808 | 0.774 | 0.675 | 0.749 | ||||||||||
| Codex-12B / Code-Cushman-001 | Opadai | No | 0.317 | |||||||||||||
| CODENGEN-16B-MONO | Salesforce | Sí | 0.293 | |||||||||||||
| Codegen-16b-Multi | Salesforce | Sí | 0.183 | |||||||||||||
| Codegx-13b | Universidad de Tsinghua | No | 0.229 | |||||||||||||
| Dolly-V2-12B | Databricks | Sí | 944 | 0.710 | 0.622 | |||||||||||
| ELEUTHER-PYTHIA-7B | Eleutherai | Sí | 0.667 | 0.667 | 0.265 | 0.198 | 0.661 | |||||||||
| ELEUTHER-PYTHIA-12B | Eleutherai | Sí | 0.704 | 0.704 | 0.253 | 0.233 | 0.638 | |||||||||
| Falcon-7b | Tii | Sí | 0.781 | 0.350 | ||||||||||||
| Falcon-40b | Tii | Sí | 0.853 | 0.527 | ||||||||||||
| fastchat-t5-3b | Lmsys.org | Sí | 951 | |||||||||||||
| Gal-120B | Meta ai | No | 0.526 | |||||||||||||
| GPT-3-7B / CURIE | Opadai | No | 0.682 | 0.243 | ||||||||||||
| GPT-3-175B / Davinci | Opadai | No | 0.793 | 0.789 | 0.439 | 0.702 | ||||||||||
| GPT-3.5-175B / Text-Davinci-003 | Opadai | No | 0.822 | 0.834 | 0.481 | 0.762 | 0.569 | 0.758 | 0.816 | |||||||
| GPT-3.5-175B / Code-Davinci-002 | Opadai | No | 0.463 | |||||||||||||
| GPT-4 | Opadai | No | 0.953 | 0.670 | 0.864 | 0.875 | ||||||||||
| GPT4All-13B-Snoozy | Nomic ai | Sí | 0.750 | 0.713 | ||||||||||||
| GPT-NOOX-20B | Eleutherai | Sí | 0.718 | 0.719 | 0.719 | 0.269 | 0.276 | 0.347 | ||||||||
| GPT-J-6B | Eleutherai | Sí | 0.663 | 0.683 | 0.683 | 0.261 | 0.249 | 0.234 | ||||||||
| koala-13b | Berkeley Bair | No | 1082 | 0.726 | 0.688 | |||||||||||
| Llama-7b | Meta ai | No | 0.738 | 0.105 | 0.738 | 0.302 | 0.443 | 0.701 | ||||||||
| Llama-13b | Meta ai | No | 932 | 0.792 | 0.158 | 0.730 | ||||||||||
| Llama-33b | Meta ai | No | 0.828 | 0.217 | 0.760 | |||||||||||
| Llama-65b | Meta ai | No | 0.842 | 0.237 | 0.634 | 0.770 | ||||||||||
| Llama-2-70B | Meta ai | Sí | 0.873 | 0.698 | ||||||||||||
| MPT-7B | Mosaico | Sí | 0.761 | 0.702 | 0.296 | 0.343 | ||||||||||
| Oasst-Pythia-12b | Asistente abierto | Sí | 1065 | 0.681 | 0.650 | |||||||||||
| opt-7b | Meta ai | No | 0.677 | 0.677 | 0.251 | 0.227 | ||||||||||
| opt-13b | Meta ai | No | 0.692 | 0.692 | 0.257 | 0.282 | ||||||||||
| opt-66b | Meta ai | No | 0.745 | 0.276 | ||||||||||||
| opt-175b | Meta ai | No | 0.791 | 0.318 | ||||||||||||
| Palm-62b | Investigación de Google | No | 0.770 | |||||||||||||
| Palm-540b | Investigación de Google | No | 0.838 | 0.834 | 0.836 | 0.262 | 0.779 | 0.818 | 0.693 | 0.814 | 0.811 | 0.837 | 0.851 | |||
| codificador de palma-540b | Investigación de Google | No | 0.359 | |||||||||||||
| Palm-2-S | Investigación de Google | No | 0.820 | 0.807 | 0.752 | 0.779 | ||||||||||
| Palm-2-S* | Investigación de Google | No | 0.376 | |||||||||||||
| palma-2-m | Investigación de Google | No | 0.840 | 0.837 | 0.817 | 0.792 | ||||||||||
| palma-2-l | Investigación de Google | No | 0.868 | 0.869 | 0.861 | 0.830 | ||||||||||
| Palm-2-L-Instructo | Investigación de Google | No | 0.909 | |||||||||||||
| Replicar Código de pedido-V1-3B | Replicación | Sí | 0.219 | |||||||||||||
| stablelm-base-alfa-7b | Estabilidad ai | Sí | 0.412 | 0.533 | 0.251 | 0.049 | 0.501 | |||||||||
| stablelm ajustado-alfa-7b | Estabilidad ai | No | 858 | 0.536 | 0.548 | |||||||||||
| Starcoder-base-16B | Bigscode | Sí | 0.304 | |||||||||||||
| código de estrellas-16b | Bigscode | Sí | 0.336 | |||||||||||||
| vicuna-13b | Lmsys.org | No | 1169 |
| Nombre de referencia | Autor | Enlace | Descripción |
|---|---|---|---|
| Chatbot arena elo | LMSYS | https://lmsys.org/blog/2023-05-03-arena/ | "En esta publicación de blog, presentamos Chatbot Arena, una plataforma de referencia LLM con batallas aleatorias anónimas de manera crowdsourced. Chatbot Arena adopta el sistema de calificación ELO, que es un sistema de calificación ampliamente utilizado en ajedrez y otros juegos competitivos". (Fuente: https://lmsys.org/blog/2023-05-03-arena/) |
| Helaswag | Zellers et al. | https://arxiv.org/abs/1905.07830v1 | "HellaSwag es un conjunto de datos de desafío para evaluar el NLI de sentido común que es especialmente difícil para los modelos de última generación, aunque sus preguntas son triviales para los humanos (> 95% de precisión)". (Fuente: https://paperswithcode.com/dataset/hellaswag) |
| Humanal | Chen et al. | https://arxiv.org/abs/2107.03374v2 | "Solía medir la corrección funcional para sintetizar programas de las documentos. Consta de 164 problemas de programación originales, evaluando la comprensión del lenguaje, los algoritmos y las matemáticas simples, con algunas preguntas de entrevista de software comparables a simples". (Fuente: https://paperswithcode.com/dataset/humaneval) |
| LAMBADA | Paperno et al. | https://arxiv.org/abs/1606.06031 | "La Lambada evalúa las capacidades de los modelos computacionales para la comprensión del texto por medio de una tarea de predicción de palabras. Lambada es una colección de pasajes narrativos que comparten la característica de que los sujetos humanos pueden adivinar su última palabra si están expuestos a todo el pasaje, pero no si solo ven la última oración que precede a la palabra objetivo. Para que los modelos de Lambada no puedan simplemente seguir el contexto local, pero deben ser capaces de seguir la información de la información. (Fuente: https://huggingface.co/datasets/lambada) |
| MMLU | Hendrycks et al. | https://github.com/hendrycks/test | "El punto de referencia cubre 57 sujetos en STEM, las humanidades, las ciencias sociales y más. Varía la dificultad desde un nivel elemental hasta un nivel profesional avanzado, y prueba tanto el conocimiento mundial como la capacidad de resolución de problemas. Las materias van desde áreas tradicionales, como las matemáticas y la historia, a las áreas más especializadas como la ley y la ética. (Fuente: "https://paperswithcode.com/dataset/mmlu") |
| Triviaqa | Joshi et al. | https://arxiv.org/abs/1705.03551v2 | "Presentamos Triviaqa, un conjunto de datos de comprensión de lectura desafiante que contiene más de 650k Pregunta-Respuesta a la evidencia. Triviaqa incluye 95k pares de preguntas y respuestas de alta calidad escritas por trivia entusiastas y documentos de evidencia reunidos independientemente, seis por pregunta en promedio, proporcionan una supervisión de alta calidad para responder las preguntas". (Fuente: https://arxiv.org/abs/1705.03551v2) |
| Winogrande | Sakaguchi et al. | https://arxiv.org/abs/1907.10641v2 | "Un conjunto de datos a gran escala de 44K [resolución de pronombre hechas de expertos], inspirado en el diseño WSC original, pero ajustado para mejorar tanto la escala como la dureza del conjunto de datos". (Fuente: https://arxiv.org/abs/1907.10641v2) |
¡Siempre estamos felices por las contribuciones! Puede contribuir por lo siguiente:
Si está interesado en una descripción general sobre LLMS Open para uso comercial y sintonización, consulte el repositorio Open-LLMS.
Los resultados de esta tabla de clasificación se recopilan de los documentos individuales y los resultados publicados de los autores modelo. Para cada valor informado, la fuente se agrega como un enlace.
Un agradecimiento especial a las siguientes páginas:
La información anterior puede estar incorrecta. Si desea utilizar un modelo publicado para uso comercial, comuníquese con un abogado.