Репозиторий обследования моделей крупных языков представляет собой комплексный сборник, посвященный исследованию и пониманию моделей крупных языков (LLMS). В нем находится множество ресурсов, включая исследовательские работы, сообщения в блоге, учебные пособия, примеры кода и многое другое, чтобы обеспечить углубленный взгляд на прогрессию, методологии и применение LLMS. Это репо является бесценным ресурсом для исследователей ИИ, ученых данных или энтузиастов, заинтересованных в достижениях и внутренней работе LLMS. Мы поощряем вклад в более широкое сообщество для содействия совместному обучению и продолжать раздвигать границы исследований LLM.

| Языковая модель | Дата выпуска | Контрольные точки | Бумага/блог | Params (b) | Контекст длины | Лицензия | Попробуйте |
|---|---|---|---|---|---|---|---|
| T5 | 2019/10 | T5 & FLAN-T5, FLAN-T5-XXL (HF) | Изучение пределов обучения передачи с помощью унифицированного трансформатора текста в текст | 0,06 - 11 | 512 | Apache 2.0 | T5-Large |
| Уль2 | 2022/10 | Ul2 & Flan-UL2, Flan-UL2 (HF) | UL2 20B: Ученик с открытым исходным кодом. | 20 | 512, 2048 | Apache 2.0 | |
| Кожух | 2022/06 | Контрольная точка | Код | 54 | 4096 | Модель | Веб -сайт |
| Cerebras-Gpt | 2023/03 | Cerebras-Gpt | Cerebras-GPT: семейство открытых, эффективных вычислительных, больших языковых моделей (бумага) | 0,111 - 13 | 2048 | Apache 2.0 | Cerebras-GPT-1.3b |
| Открытый помощник (семья Пифии) | 2023/03 | OA-PYTHIA-12B-SFT-8, OA-PYTHIA-12B-SFT-4, OA-PYTHIA-12B-SFT-1 | Демократизация выравнивания крупной языковой модели | 12 | 2048 | Apache 2.0 | Pythia-2,8B |
| Пифия | 2023/04 | Pythia 70m - 12b | Pythia: набор для анализа больших языковых моделей по всему обучению и масштабированию | 0,07 - 12 | 2048 | Apache 2.0 | |
| Долли | 2023/04 | Долли-V2-12B | Бесплатная Dolly: представление первого в мире по-настоящему открытого обучения LLM | 3, 7, 12 | 2048 | Грань | |
| Dlite | 2023/05 | DLITE-V2-1_5B | Объявление DLITE V2: легкие, открытые LLM, которые могут работать где угодно | 0,124 - 1,5 | 1024 | Apache 2.0 | DLITE-V2-1.5b |
| RWKV | 2021/08 | RWKV, Chatrwkv | Модель языка RWKV (и мои трюки LM) | 0,1 - 14 | Бесконечность (RNN) | Apache 2.0 | |
| GPT-J-6B | 2023/06 | GPT-J-6B, GPT4ALL-J | GPT-J-6B: 6B Transformer на основе JAX | 6 | 2048 | Apache 2.0 | |
| GPT-neox-20b | 2022/04 | GPT-neox-20b | GPT-neox-20B: модель авторегрессии с открытым исходным кодом | 20 | 2048 | Apache 2.0 | |
| Цвести | 2022/11 | Цвести | Блум: многоязычная языковая модель с открытым доступом 176B-параметра | 176 | 2048 | OpenRail-M v1 | |
| Стаблм-Альфа | 2023/04 | Стаблм-Альфа | Стабильность ИИ запускает первый из своих языковых моделей StableLm | 3 - 65 | 4096 | CC BY-SA-4.0 | |
| Fastchat-T5 | 2023/04 | FASTCHAT-T5-3B-V1.0 | Мы рады выпустить Fastchat-T5: наш компактный и коммерческий чат-бот! | 3 | 512 | Apache 2.0 | |
| H2ogpt | 2023/05 | H2ogpt | Создание лучшей в мире модель с открытым исходным кодом: путешествие H2O.ai | 12 - 20 | 256 - 2048 | Apache 2.0 | |
| MPT-7B | 2023/05 | MPT-7B, MPT-7B-Instruct | Представляем MPT-7B: новый стандарт для коммерчески полезных LLM с открытым исходным кодом | 7 | 84K (алиби) | Apache 2.0, CC BY-SA-3.0 | |
| Пангу-σ | 2023/3 | Пангу | Модель | 1085 | - | Модель | Страница |
| Redpajama-Incyte | 2023/05 | Redpajama-Incyte | Выпуск семейства моделей 3B и 7B Redpajama-INCET | 3 - 7 | 2048 | Apache 2.0 | Redpajama-Incite-Instruct-3b-V1 |
| Openllama | 2023/05 | OPEN_LLAMA_3B, OPEN_LLAMA_7B, OPEN_LLAMA_13B | Openllama: открытая репродукция ламы | 3, 7 | 2048 | Apache 2.0 | Openllama-7b-preview_200bt |
| Сокол | 2023/05 | Falcon-180b, Falcon-40b, Falcon-7b | Набор данных RefinedWeb для Falcon LLM: опережать кураторские корпусы с веб -данными и только веб -данных | 180, 40, 7 | 2048 | Apache 2.0 | |
| MPT-30B | 2023/06 | MPT-30B, MPT-30B-Инструк | MPT-30B: поднятие бара для моделей фонда с открытым исходным кодом | 30 | 8192 | Apache 2.0, CC BY-SA-3.0 | Код вывода MPT 30B с использованием процессора |
| Лама 2 | 2023/06 | Лама 2 веса | Llama 2: Open Foundation и тонкие модели чата | 7 - 70 | 4096 | Пользовательский бесплатный, если у вас есть менее 700 млн пользователей, и вы не можете использовать выходы Llama для обучения других LLM, кроме Llama и ее производных | Huggingchat |
| Openlm | 2023/09 | Openlm 1b, openlm 7b | Open LM: репозиторий минимального, но перформативного языкового моделирования (LM) | 1, 7 | 2048 | Грань | |
| Мишстраль 7b | 2023/09 | MISTRAL-7B-V0.1, MISTRAL-7B-INSTRUCT-V0.1 | Мишстраль 7b | 7 | 4096-16K с раздвижными окнами | Apache 2.0 | Мистер Трансформатор |
| OpenHermes | 2023/09 | OpenHermes-7b, OpenHermes-13b | Nous Research | 7, 13 | 4096 | Грань | OpenHermes-V2 создан на Mistral 7B |
| Солнечный | 2023/12 | Солнечная-10,7B | Наверх | 10.7 | 4096 | Apache-2.0 | |
| Phi-2 | 2023/12 | PHI-2 2,7B | Microsoft | 2.7 | 2048 | Грань | |
| Сантакодер | 2023/01 | Сантакодер | Santacoder: Не дотянитесь за звездами! | 1.1 | 2048 | OpenRail-M v1 | Сантакодер |
| StarCoder | 2023/05 | StarCoder | StarCoder: современный LLM для кода, StarCoder: Да пребудет с вами источник! | 1.1-15 | 8192 | OpenRail-M v1 | |
| Краххат альфа | 2023/05 | краххат-альфа | Создание помощника по кодированию в StarCoder | 16 | 8192 | OpenRail-M v1 | |
| Применить код | 2023/05 | Repit-Code-V1-3b | Обучение SOTA Code LLM за 1 неделю и количественно оценить вибрации - с Reza Shabani of Repit | 2.7 | бесконечность? (Алиби) | CC BY-SA-4.0 | Repit-Code-V1-3b |
| CodeGen2 | 2023/04 | Codegen2 1b-16b | CodeGen2: уроки обучения LLMS по программированию и естественным языкам | 1 - 16 | 2048 | Apache 2.0 | |
| Codet5+ | 2023/05 | Codet5+ | Codet5+: Открыть код модели больших языков для понимания кода и генерации | 0,22 - 16 | 512 | BSD-3-CLAUSE | Codet5+-6b |
| XGEN-7B | 2023/06 | XGEN-7B-8K-база | Моделирование длинной последовательности с XGEN: 7B LLM, обученная длине входной последовательности 8K | 7 | 8192 | Apache 2.0 | |
| CodeGen2.5 | 2023/07 | Codegen2.5-7b-multi | CodeGen2.5: маленький, но могучий | 7 | 2048 | Apache 2.0 | |
| Decicoder-1b | 2023/08 | Decicoder-1b | Представляем децикодер: новый золотой стандарт в эффективной и точной генерации кода | 1.1 | 2048 | Apache 2.0 | Decicoder Demo |
| Код лама | 2023 | Код вывода для моделей Codellama | Код Llama: Open Foundation Models для кода | 7 - 34 | 4096 | Модель | Huggingchat |
| Воробей | 2022/09 | Код вывода | Код | 70 | 4096 | Модель | Веб-страница |
| Мистраль | 2023/09 | Код вывода | Код | 7 | 8000 | Модель | Веб-страница |
| Коала | 2023/04 | Код вывода | Код | 13 | 4096 | Модель | Веб-страница |
| Пальма 2 | 2024 | N/a | Google AI | 540 | N/a | N/a | N/a |
| Тонги Цянвен | 2024 | N/a | Alibaba Cloud | N/a | N/a | N/a | N/a |
| Команда COUCE | 2024 | N/a | Кожух | 6 - 52 | N/a | N/a | N/a |
| Vicuna 33b | 2024 | N/a | Meta ai | 33 | N/a | N/a | N/a |
| Гуанако-65b | 2024 | N/a | Meta ai | 65 | N/a | N/a | N/a |
| Amazon Q. | 2024 | N/a | AWS | N/a | N/a | N/a | N/a |
| Сокол 180b | 2024 | Falcon-180b | Институт технологий инноваций | 180 | N/a | Apache 2.0 | N/a |
| YI 34B | 2024 | N/a | 01 AI | 34 | До 32к | N/a | N/a |
| Миктральный 8x7b | 2023 | Миктральный 8x 7b | Мистраль Ай | 46,7 (12,9 за токен) | N/a | Apache 2.0 | N/a |
Если вы найдете нашу опрос полезным для вашего исследования, пожалуйста, укажите следующую статью:
@article{hadi2024large,
title={Large language models: a comprehensive survey of its applications, challenges, limitations, and future prospects},
author={Hadi, Muhammad Usman and Al Tashi, Qasem and Shah, Abbas and Qureshi, Rizwan and Muneer, Amgad and Irfan, Muhammad and Zafar, Anas and Shaikh, Muhammad Bilal and Akhtar, Naveed and Wu, Jia and others},
journal={Authorea Preprints},
year={2024},
publisher={Authorea}
}