مجموعة من مجموعات بيانات ضبط التعليمات المفتوحة المصدر لتدريب LLMs (النصية والطسيبية) المستندة إلى الدردشة (GPT-4 ، ChatGPT ، LLAMA ، الألباكا). ندرج حاليًا ثلاثة أنواع من مجموعة البيانات:
تعليمات تعليم التعليم / التعرف على التعلم من مجموعة بيانات التعليقات البشرية (RLHF) هي مكون رئيسي في LLMS-Ergansing Ergansing مثل ChatGPT. يكرس هذا الريبو لتوفير قائمة شاملة من مجموعات البيانات المستخدمة لضبط التعليمات في مختلف LLMs ، مما يجعل من الأسهل على الباحثين والمطورين الوصول إلى هذه الموارد واستخدامها.
قوائم Codebse لتدريب LLMS الخاص بك:
الحجم: عدد أزواج ضبط التعليمات
علامات لغوية:
علامات المهام:
ميثود الجيل:
إلحاق المشروع الجديد في نهاية الملف
## [ ({owner}/{project-name)|Tags} ] { https://github.com/link/to/project}
- summary:
- Data generation model:
- paper:
- License:
- Related: (if applicable)BSD 3-ClauseGPT-4-0314CC BY-NC 4.0 CC BY-NC 4.052K التي تم إنشاؤها من خط أنابيب self-instruct مع 175 seed task .text-davinci-003CC BY-NC 4.0 text-davinci-003CC BY-NC 4.0 52K التي تم إنشاؤها من خط أنابيب self-instruct مع 429 seed task .text-davinci-00352K التي تم إنشاؤها من خط أنابيب self-instruct مع 429 seed task .text-davinci-003GPL-3.0 gpt-3.5 ، human generatedCC BY-SA 4.0 gpt-3.5 ، human generatedCC BY-SA 4.0 gpt-3.5 ، human generatedCC BY 4.0 1,616 diverse NLP tasks وتعريفات/تعليمات اللغة الطبيعية.Human generatedApache License 2.0 Apache License 2.0 Apache License 2.0 MIT License GPT-4MIT License Apache License 2.0 GPT-3.5-turboCC BY-NC 4.0 GPT-3.5-turboApache License 2.0text-davinci-002MIT License GPT-4CC BY-NC 4.0CC BY-SA 3.0 Apache License 2.0 GPT-4 ، GPT-3.5CC0 1.0 Universal GPT-3.5CC BY 4.0Anthropic RL-CAI 52BMIT LicenseGPT-3.5Apache License 2.0 CC BY-SA 4.0GPT-4 وليس الإنسان) من مطالبات الألبكة من ثلاثة نماذج (GPT-4 و GPT-3.5 و OPT-IML) عن طريق طلب GPT-4 لتقييم الجودة. يعتقد المؤلف أن "GPT-4 قادر على تحديد وإصلاح أخطائه ، والحكم بدقة على جودة الردود"GPT-4CC BY-NC 4.0ملاحظة: على الرغم من أن هذه التراخيص تسمح بالاستخدام التجاري ، فقد يكون لها متطلبات مختلفة للإسناد أو التوزيع أو التعديل. تأكد من مراجعة الشروط المحددة لكل ترخيص قبل استخدامه في مشروع تجاري.
تراخيص الاستخدام التجاري:
Apache License 2.0MIT LicenseBSD 3-Clause LicenseBSD 2-Clause LicenseGNU Lesser General Public License v3.0 (LGPLv3)GNU Affero General Public License v3.0 (AGPLv3)Mozilla Public License 2.0 (MPL-2.0)Eclipse Public License 2.0 (EPL-2.0)Microsoft Public License (Ms-PL)Creative Commons Attribution 4.0 International (CC BY 4.0)Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)zlib LicenseBoost Software License 1.0