Le référentiel d'enquête sur les modèles de grande langue est un recueil complet dédié à l'exploration et à la compréhension des modèles de grandes langues (LLM). Il abrite un assortiment de ressources, notamment des articles de recherche, des articles de blog, des tutoriels, des exemples de code, etc. pour fournir un aperçu approfondi de la progression, des méthodologies et des applications des LLM. Ce repo est une ressource inestimable pour les chercheurs de l'IA, les scientifiques des données ou les amateurs intéressés par les progrès et les fonctions internes des LLM. Nous encourageons les contributions de la communauté au sens large pour promouvoir l'apprentissage collaboratif et continuer à repousser les limites de la recherche LLM.

| Modèle de langue | Date de sortie | Points de contrôle | Papier / blog | Paramètres (b) | Durée du contexte | Licence | Essayez-le |
|---|---|---|---|---|---|---|---|
| T5 | 2019/10 | T5 & Flan-T5, Flan-T5-XXL (HF) | Exploration des limites de l'apprentissage du transfert avec un transformateur de texte à texte unifié | 0,06 - 11 | 512 | Apache 2.0 | T5 |
| UL2 | 2022/10 | UL2 & Flan-UL2, Flan-UL2 (HF) | UL2 20B: un apprenant de la langue unifiée open source | 20 | 512, 2048 | Apache 2.0 | |
| Adhérer | 2022/06 | Point de contrôle | Code | 54 | 4096 | Modèle | Site web |
| Cerebras-gpt | 2023/03 | Cerebras-gpt | Cerebras-GPT: Une famille de modèles de langage ouverts et économes en calcul (papier) | 0,111 - 13 | 2048 | Apache 2.0 | Cerebras-GPT-1.3b |
| Assistant ouvert (Famille Pythia) | 2023/03 | Oa-pythia-12b-sft-8, oa-pythia-12b-sft-4, oa-pythia-12b-sft-1 | Démocratiser l'alignement du modèle de langue | 12 | 2048 | Apache 2.0 | Pythia-2.8b |
| Pythie | 2023/04 | pythie 70m - 12b | Pythia: une suite pour analyser les modèles de gros langues à travers la formation et la mise à l'échelle | 0,07 - 12 | 2048 | Apache 2.0 | |
| Chariot | 2023/04 | Dolly-V2-12B | Dolly gratuit: introduire le premier LLM du monde à instruction vraiment ouverte au monde | 3, 7, 12 | 2048 | Mit | |
| Dlite | 2023/05 | dlite-v2-1_5b | Annonce de Dlite V2: LLMS légers et ouverts qui peuvent fonctionner n'importe où | 0,124 - 1,5 | 1024 | Apache 2.0 | Dlite-v2-1.5b |
| Rwkv | 2021/08 | Rwkv, chatrwkv | Le modèle de langue RWKV (et mes astuces LM) | 0,1 - 14 | Infinity (RNN) | Apache 2.0 | |
| GPT-J-6B | 2023/06 | GPT-J-6B, GPT4ALL-J | GPT-J-6B: Transformateur basé sur Jax 6B | 6 | 2048 | Apache 2.0 | |
| Gpt-neox-20b | 2022/04 | Gpt-neox-20b | GPT-NEOX-20B: un modèle de langue autorégressif open source | 20 | 2048 | Apache 2.0 | |
| Floraison | 2022/11 | Floraison | Bloom: un modèle de langue multilingue à accès à accès ouvert 176B-paramètre | 176 | 2048 | OpenRail-M v1 | |
| Stablel-alpha | 2023/04 | Stablel-alpha | Stabilité AI lance la première de sa suite stablelm de modèles de langue | 3 - 65 | 4096 | CC BY-SA-4.0 | |
| FastChat-T5 | 2023/04 | FastChat-T5-3B-V1.0 | Nous sommes ravis de publier FastChat-T5: Notre chatbot compact et convivial! | 3 | 512 | Apache 2.0 | |
| h2ogpt | 2023/05 | h2ogpt | Construire le meilleur modèle de grande langue open source au monde: le voyage de H2O.ai | 12 - 20 | 256 - 2048 | Apache 2.0 | |
| MPT-7B | 2023/05 | MPT-7B, MPT-7B-INSTRUCT | Présentation de MPT-7B: une nouvelle norme pour les LLMS open-source, commercialement utilisables | 7 | 84K (alibi) | Apache 2.0, CC BY-SA-3.0 | |
| Pangu-σ | 2023/3 | Pangu | Modèle | 1085 | - | Modèle | Page |
| Redpajama-incite | 2023/05 | Redpajama-incite | Sortie de modèles de modèles de modèles de modèles de base, d'instructions et de chat | 3 - 7 | 2048 | Apache 2.0 | Redpajama-incite-instruct-3b-v1 |
| Ouvrir | 2023/05 | open_llama_3b, open_llama_7b, open_llama_13b | OpenLlama: une reproduction ouverte de lama | 3, 7 | 2048 | Apache 2.0 | OpenLlama-7b-preview_200bt |
| Faucon | 2023/05 | FALCON-180B, FALCON-40B, FALCON-7B | L'ensemble de données raffiné pour Falcon LLM: surperformant les corpus organisés avec des données Web et les données Web uniquement | 180, 40, 7 | 2048 | Apache 2.0 | |
| MPT-30B | 2023/06 | MPT-30B, MPT-30B-INSTRUCT | MPT-30B: élever la barre des modèles de fondation open source | 30 | 8192 | Apache 2.0, CC BY-SA-3.0 | Code d'inférence MPT 30B à l'aide du CPU |
| Lama 2 | 2023/06 | LLAMA 2 Poids | LLAMA 2: Modèles de chat à fondation ouverte et à réglage fin | 7 - 70 | 4096 | Custom gratuitement si vous avez moins de 700 millions d'utilisateurs et que vous ne pouvez pas utiliser les sorties LLAMA pour former d'autres LLMS en plus de Llama et de ses dérivés | Étreindre |
| Ouverte | 2023/09 | OpenLM 1B, OpenLM 7B | Open LM: un référentiel de modélisation du langage minimal mais performatif (LM) | 1, 7 | 2048 | Mit | |
| Mistral 7b | 2023/09 | Mistral-7B-V0.1, Mistral-7B-Instruct-V0.1 | Mistral 7b | 7 | 4096-16K avec des fenêtres coulissantes | Apache 2.0 | Mistral Transformer |
| Ouverts | 2023/09 | OpenHermes-7b, OpenHermes-13b | Recherche | 7, 13 | 4096 | Mit | OpenHermes-V2 Finetuned sur Mistral 7B |
| SOLAIRE | 2023/12 | Solaire-10.7b | En haut | 10.7 | 4096 | apache-2.0 | |
| phi-2 | 2023/12 | PHI-2 2,7B | Microsoft | 2.7 | 2048 | Mit | |
| Santacoder | 2023/01 | santacoder | Santacoder: N'atteignez pas les étoiles! | 1.1 | 2048 | OpenRail-M v1 | Santacoder |
| Coder d'étoile | 2023/05 | coder d'étoile | Starcoder: un LLM de pointe pour le code, Starcoder: Que la source soit avec vous! | 1.1-15 | 8192 | OpenRail-M v1 | |
| Starchat alpha | 2023/05 | Starchat-alpha | Création d'un assistant de codage avec Starcoder | 16 | 8192 | OpenRail-M v1 | |
| Repeindre le code | 2023/05 | Replit-Code-V1-3B | Former un code Sota LLM en 1 semaine et quantifier les vibrations - avec Reza Shabani de Replit | 2.7 | infini? (Alibi) | CC BY-SA-4.0 | Replit-Code-V1-3B |
| CodeGen2 | 2023/04 | CodeGen2 1B-16B | CodeGen2: leçons pour la formation LLMS sur la programmation et les langages naturels | 1 - 16 | 2048 | Apache 2.0 | |
| Codet5 + | 2023/05 | Codet5 + | CODET5 +: Open Code Modèles de grande langue pour la compréhension et la génération du code | 0,22 - 16 | 512 | Clause BSD-3 | CODET5 + -6B |
| XGEN-7B | 2023/06 | XGEN-7B-8K-base | Modélisation de séquence longue avec xgen: un LLM 7B formé sur la longueur de séquence d'entrée 8k | 7 | 8192 | Apache 2.0 | |
| CodeGen2.5 | 2023/07 | CodeGen2.5-7b-Multi | CodeGen2.5: Petit, mais puissant | 7 | 2048 | Apache 2.0 | |
| Décicoder-1b | 2023/08 | Décicoder-1b | Présentation de décicoder: la nouvelle étalon-or dans une génération de code efficace et précise | 1.1 | 2048 | Apache 2.0 | Démo de décicoder |
| Code Lama | 2023 | Code d'inférence pour les modèles Codellama | Code Llama: Open Foundation Models for Code | 7 - 34 | 4096 | Modèle | Étreindre |
| Moineau | 2022/09 | Code d'inférence | Code | 70 | 4096 | Modèle | Page web |
| Mistral | 2023/09 | Code d'inférence | Code | 7 | 8000 | Modèle | Page web |
| Koala | 2023/04 | Code d'inférence | Code | 13 | 4096 | Modèle | Page web |
| Palmier 2 | 2024 | N / A | Google AI | 540 | N / A | N / A | N / A |
| Tongyi Qianwen | 2024 | N / A | Nuage d'alibaba | N / A | N / A | N / A | N / A |
| Commande cohére | 2024 | N / A | Adhérer | 6 - 52 | N / A | N / A | N / A |
| Vicuna 33b | 2024 | N / A | Meta Ai | 33 | N / A | N / A | N / A |
| Guanaco-65b | 2024 | N / A | Meta Ai | 65 | N / A | N / A | N / A |
| Amazon Q | 2024 | N / A | AWS | N / A | N / A | N / A | N / A |
| Falcon 180b | 2024 | Falcon-180b | Institut de l'innovation technologique | 180 | N / A | Apache 2.0 | N / A |
| Yi 34b | 2024 | N / A | 01 AI | 34 | Jusqu'à 32k | N / A | N / A |
| Mixtral 8x7b | 2023 | Mixtral 8x 7b | Mistral Ai | 46,7 (12,9 par jeton) | N / A | Apache 2.0 | N / A |
Si vous trouvez notre enquête utile pour vos recherches, veuillez citer l'article suivant:
@article{hadi2024large,
title={Large language models: a comprehensive survey of its applications, challenges, limitations, and future prospects},
author={Hadi, Muhammad Usman and Al Tashi, Qasem and Shah, Abbas and Qureshi, Rizwan and Muneer, Amgad and Irfan, Muhammad and Zafar, Anas and Shaikh, Muhammad Bilal and Akhtar, Naveed and Wu, Jia and others},
journal={Authorea Preprints},
year={2024},
publisher={Authorea}
}