LLM Survey
1.0.0
يعد مستودع مسح نماذج اللغة الكبيرة عبارة عن مجموعة شاملة مخصصة لاستكشاف وفهم نماذج اللغة الكبيرة (LLMS). يضم مجموعة متنوعة من الموارد بما في ذلك الأوراق البحثية ، ووظائف المدونة ، والدروس التعليمية ، وأمثلة التعليمات البرمجية ، وأكثر من ذلك لتوفير نظرة متعمقة على تقدم ومنهجيات وتطبيقات LLMs. هذا الريبو هو مورد لا يقدر بثمن للباحثين في الذكاء الاصطناعي أو علماء البيانات أو المتحمسين المهتمين بالتقدم والأعمال الداخلية لـ LLMs. نشجع المساهمات من المجتمع الأوسع على تعزيز التعلم التعاوني ومواصلة دفع حدود بحث LLM.

| نموذج اللغة | تاريخ الافراج عنه | نقاط التفتيش | ورقة/مدونة | params (ب) | طول السياق | رخصة | جربه |
|---|---|---|---|---|---|---|---|
| T5 | 2019/10 | T5 & Flan-T5 ، Flan-T5-XXL (HF) | استكشاف حدود التعلم النقل مع محول نص إلى نص موحد | 0.06 - 11 | 512 | Apache 2.0 | T5-large |
| UL2 | 2022/10 | UL2 & Flan-ul2 ، flan-ul2 (HF) | UL2 20B: متعلم لغة مفتوح المصدر موحد | 20 | 512 ، 2048 | Apache 2.0 | |
| التحم | 2022/06 | نقطة التفتيش | شفرة | 54 | 4096 | نموذج | موقع إلكتروني |
| الدماغ-GPT | 2023/03 | الدماغ-GPT | الدماغ-GPT: عائلة من نماذج اللغة المفتوحة والفعالة والكفاءة (ورقة) (ورقة) | 0.111 - 13 | 2048 | Apache 2.0 | الدماغ-GPT-1.3B |
| مساعد مفتوح (عائلة بيثيا) | 2023/03 | OA-Pythia-12B-SFT-8 ، OA-Pythia-12B-SFT-4 ، OA-Pythia-12B-SFT-1 | إضفاء الطابع الديمقراطي على محاذاة نموذج اللغة | 12 | 2048 | Apache 2.0 | بيثيا -2.8 ب |
| بيثيا | 2023/04 | بيثيا 70 م - 12 ب | Pythia: جناح لتحليل نماذج اللغة الكبيرة عبر التدريب والتوسيع | 0.07 - 12 | 2048 | Apache 2.0 | |
| دوللي | 2023/04 | Dolly-V2-12b | Dolly Free: تقديم أول LLM تعليمات مفتوحة حقًا في العالم | 3 ، 7 ، 12 | 2048 | معهد ماساتشوستس للتكنولوجيا | |
| dlite | 2023/05 | Dlite-V2-1_5b | الإعلان عن Dlite V2: LLMs خفيفة الوزن ، مفتوحة يمكن تشغيلها في أي مكان | 0.124 - 1.5 | 1024 | Apache 2.0 | Dlite-V2-1.5b |
| RWKV | 2021/08 | RWKV ، chatrwkv | نموذج لغة RWKV (وحيل LM الخاصة بي) | 0.1 - 14 | اللانهاية (RNN) | Apache 2.0 | |
| GPT-J-6B | 2023/06 | GPT-J-6B ، GPT4ALL-J | GPT-J-6B: محول قائم على JAX 6B | 6 | 2048 | Apache 2.0 | |
| GPT-NEOX-20B | 2022/04 | GPT-NEOX-20B | GPT-NEOX-20B: نموذج لغة تلقائي مفتوح المصدر | 20 | 2048 | Apache 2.0 | |
| يزدهر | 2022/11 | يزدهر | Bloom: نموذج لغة متعددة اللغات الوصول إلى 176B المعلمة | 176 | 2048 | OpenRail-M V1 | |
| Stablelm-alpha | 2023/04 | Stablelm-alpha | الاستقرار AI يطلق أول مجموعة من نماذج اللغة stablelm | 3 - 65 | 4096 | CC BY-SA-4.0 | |
| Fastchat-T5 | 2023/04 | Fastchat-T5-3B-V1.0 | نحن متحمسون لإصدار Fastchat-T5: chatbot لدينا المدمجة والصديق التجاري! | 3 | 512 | Apache 2.0 | |
| H2OGPT | 2023/05 | H2OGPT | بناء أفضل نموذج لغة مفتوح المصدر في العالم: رحلة H2O.AI | 12 - 20 | 256 - 2048 | Apache 2.0 | |
| MPT-7B | 2023/05 | MPT-7B ، MPT-7B-instruct | تقديم MPT-7B: معيار جديد لـ LLMs مفتوح المصدر ، قابل للاستخدام تجاريًا | 7 | 84 كيلو (عذر) | Apache 2.0 ، CC BY-SA-3.0 | |
| pangu-σ | 2023/3 | بانغ | نموذج | 1085 | - | نموذج | صفحة |
| redpajama-ing | 2023/05 | redpajama-ing | إطلاق عائلة من طرازات 3B و 7B Redpajama-Insite بما في ذلك طرازات القاعدة ، والتعليمات والدردشة | 3 - 7 | 2048 | Apache 2.0 | redpajama-incite-instruct-3b-v1 |
| Openllama | 2023/05 | open_llama_3b ، open_llama_7b ، open_llama_13b | Openllama: نسخة مفتوحة لما | 3 ، 7 | 2048 | Apache 2.0 | Openllama-7b-Preview_200bt |
| فالكون | 2023/05 | Falcon-180B ، Falcon-40B ، Falcon-7B | مجموعة بيانات remortedweb لـ Falcon LLM: تفوق الأداء المبرمج مع بيانات الويب وبيانات الويب فقط | 180 ، 40 ، 7 | 2048 | Apache 2.0 | |
| MPT-30B | 2023/06 | MPT-30B ، MPT-30B-instruct | MPT-30B: رفع الشريط لنماذج مؤسسة مفتوحة المصدر | 30 | 8192 | Apache 2.0 ، CC BY-SA-3.0 | رمز الاستدلال MPT 30B باستخدام وحدة المعالجة المركزية |
| لاما 2 | 2023/06 | لاما 2 الأوزان | Llama 2: Open Foundation ونماذج الدردشة التي تم ضبطها | 7 - 70 | 4096 | مخصص مجاني إذا كان لديك أقل من 700 مليون مستخدم ولا يمكنك استخدام مخرجات Llama لتدريب LLMs الأخرى إلى جانب Llama ومشتقاته | Huggingchat |
| OpenLM | 2023/09 | OpenLM 1B ، OpenLM 7B | Open LM: مستودع للنمذجة اللغوية (LM) الحد الأدنى | 1 ، 7 | 2048 | معهد ماساتشوستس للتكنولوجيا | |
| MISTRAL 7B | 2023/09 | MISTRAL-7B-V0.1 ، MISTRAL-7B-instruct-V0.1 | MISTRAL 7B | 7 | 4096-16K مع نوافذ منزلق | Apache 2.0 | محول سوء |
| OpenHermes | 2023/09 | OpenHermes-7B ، OpenHermes-13B | بحث nous | 7 ، 13 | 4096 | معهد ماساتشوستس للتكنولوجيا | OpenHermes-V2 Finetuned على Mistral 7b |
| الطاقة الشمسية | 2023/12 | الطاقة الشمسية 10.7 ب | في المرحلة الصعودية | 10.7 | 4096 | Apache-2.0 | |
| PHI-2 | 2023/12 | PHI-2 2.7B | Microsoft | 2.7 | 2048 | معهد ماساتشوستس للتكنولوجيا | |
| Santacoder | 2023/01 | Santacoder | Santacoder: لا تصل إلى النجوم! | 1.1 | 2048 | OpenRail-M V1 | Santacoder |
| Starcoder | 2023/05 | Starcoder | Starcoder: LLM على أحدث طراز للرمز ، Starcoder: قد يكون المصدر معك! | 1.1-15 | 8192 | OpenRail-M V1 | |
| ستارشات ألفا | 2023/05 | Starchat-alpha | إنشاء مساعد ترميز مع Starcoder | 16 | 8192 | OpenRail-M V1 | |
| رمز إعادة | 2023/05 | Replit-Code-V1-3b | تدريب رمز SOTA LLM في أسبوع واحد وقياس المشاعر - مع Reza Shabani من الإعادة | 2.7 | اللانهاية؟ (عذر) | CC BY-SA-4.0 | Replit-Code-V1-3b |
| CodeGen2 | 2023/04 | CodeGen2 1B-16B | Codegen2: دروس لتدريب LLMs على البرمجة واللغات الطبيعية | 1 - 16 | 2048 | Apache 2.0 | |
| CODET5+ | 2023/05 | CODET5+ | CODET5+: فتح رمز نماذج لغة كبيرة لفهم الكود وتوليدها | 0.22 - 16 | 512 | BSD-3-cause | CODET5+-6B |
| xgen-7b | 2023/06 | Xgen-7B-8K-base | نمذجة تسلسل طويلة مع XGEN: A 7B LLM مدربة على طول تسلسل إدخال 8K | 7 | 8192 | Apache 2.0 | |
| CodeGen2.5 | 2023/07 | Codegen2.5-7b-Multi | Codegen2.5: صغير ، ولكن عظيم | 7 | 2048 | Apache 2.0 | |
| Decicoder-1B | 2023/08 | Decicoder-1B | تقديم Decicoder: المعيار الذهبي الجديد في توليد الكود الفعال والدقيق | 1.1 | 2048 | Apache 2.0 | Decicoder Demo |
| رمز لاما | 2023 | رمز الاستدلال لنماذج Codellama | رمز Llama: Open Foundation Models for Code | 7 - 34 | 4096 | نموذج | Huggingchat |
| عصفور | 2022/09 | رمز الاستدلال | شفرة | 70 | 4096 | نموذج | صفحة على الإنترنت |
| خطأ | 2023/09 | رمز الاستدلال | شفرة | 7 | 8000 | نموذج | صفحة على الإنترنت |
| كوالا | 2023/04 | رمز الاستدلال | شفرة | 13 | 4096 | نموذج | صفحة على الإنترنت |
| نخيل 2 | 2024 | ن/أ | Google AI | 540 | ن/أ | ن/أ | ن/أ |
| تونسي تشيانوين | 2024 | ن/أ | سحابة علي بابا | ن/أ | ن/أ | ن/أ | ن/أ |
| COLEDE Command | 2024 | ن/أ | التحم | 6 - 52 | ن/أ | ن/أ | ن/أ |
| فيكونا 33 ب | 2024 | ن/أ | ميتا منظمة العفو الدولية | 33 | ن/أ | ن/أ | ن/أ |
| Guanaco-65b | 2024 | ن/أ | ميتا منظمة العفو الدولية | 65 | ن/أ | ن/أ | ن/أ |
| أمازون س | 2024 | ن/أ | AWS | ن/أ | ن/أ | ن/أ | ن/أ |
| فالكون 180 ب | 2024 | فالكون -180 ب | معهد الابتكار التكنولوجي | 180 | ن/أ | Apache 2.0 | ن/أ |
| يي 34 ب | 2024 | ن/أ | 01 منظمة العفو الدولية | 34 | ما يصل إلى 32 كيلو | ن/أ | ن/أ |
| Mixtral 8x7b | 2023 | Mixtral 8x 7b | سوء الذكاء الاصطناعي | 46.7 (12.9 لكل رمز) | ن/أ | Apache 2.0 | ن/أ |
إذا وجدت استطلاعنا مفيدًا لبحثك ، فيرجى الاستشهاد بالورقة التالية:
@article{hadi2024large,
title={Large language models: a comprehensive survey of its applications, challenges, limitations, and future prospects},
author={Hadi, Muhammad Usman and Al Tashi, Qasem and Shah, Abbas and Qureshi, Rizwan and Muneer, Amgad and Irfan, Muhammad and Zafar, Anas and Shaikh, Muhammad Bilal and Akhtar, Naveed and Wu, Jia and others},
journal={Authorea Preprints},
year={2024},
publisher={Authorea}
}