مجموعات بيانات تفضيلات الإنسان رهيبة لـ LLM؟ ❤؟
قائمة منسقة من مجموعات بيانات التفضيلات البشرية مفتوحة المصدر لضرب تعليمات LLM ، RLHF والتقييم.
لمجموعات بيانات NLP العامة و Corpora النصية ، تحقق من هذه القائمة الرائعة.
مجموعات البيانات
Openai WebGPT المقارنات
- 20K مقارنات حيث يشتمل كل مثال على سؤال وزوج من الإجابات النموذجية ودرجات التفضيل المصنفة البشرية لكل إجابة.
- مجموعة بيانات RLHF المستخدمة لتدريب نموذج مكافأة WebGPT Openai.
Openai تلخيص
- 64k أمثلة تلخيص النص بما في ذلك الاستجابات المكتوبة على الإنسان والاستجابات النموذجية ذات التصنيف البشري.
- مجموعة بيانات RLHF المستخدمة في تعلم Openai لتلخيص من ورقة التغذية المرتدة البشرية.
- استكشاف نموذج بيانات هنا.
مجموعة بيانات فائدة الأنثروب
- في إجمالي مقارنات التفضيل البشري 170k ، بما في ذلك بيانات التفضيل البشري التي تم جمعها لتدريب مساعد مفيد وغير ضار مع التعلم التعزيز من التعليقات البشرية وبيانات الفريق الأحمر المولدة من الإنسان من نماذج لغة الجمهور الأحمر لتقليل الأضرار ، مقسمة إلى 3 عمليات صياغة فرعية:
- مجموعة بيانات أساسية باستخدام نموذج 52B الذي تم تقاطعه السياق ، مع مقارنات 44 كيلو بايت ومقارنات 42K للاتفاق الأحمر (الضرر).
- مجموعة بيانات RS من مقارنات 52K للمساعدة ومقارنات 2K للتقمص الأحمر باستخدام نماذج أخذ العينات الرفض ، حيث استخدم أخذ عينات الرفض نموذج تفضيل مدرب على مجموعة البيانات الأساسية.
- تم تحديث مجموعة بيانات متكررة عبر الإنترنت بما في ذلك بيانات من نماذج RLHF ، أسبوعيًا على مدار خمسة أسابيع ، مع مقارنات عن مساعدة 22 ألف.
مجموعة بيانات محادثات OpenAssistant (OASST1)
- مجموعة محادثة من طراز مساعد على غرار الإنسان والتي تتكون من 161 ألف رسالة في 35 لغة ، مشروحة بتقييمات عالية الجودة 461 كيلو ، مما يؤدي إلى 10K+ أشجار محادثة مشروحة بالكامل.
مجموعة بيانات التفضيلات البشرية في ستانفورد (SHP)
- 385K التفضيلات البشرية الجماعية على الإجابات على الأسئلة/التعليمات في 18 مجالًا لتدريب نماذج مكافأة RLHF ونماذج تقييم NLG. مجموعات البيانات التي تم جمعها من Reddit.
reddit eli5
- 270 ألف أمثلة على الأسئلة والإجابات والدرجات التي تم جمعها من 3 أسئلة وأجوبة فرعية.
مجموعة ChatGPT البشرية (HC3)
- 60K إجابات إنسانية و 27 كيلو كرتينغبت إجابات لحوالي 24K أسئلة.
- مجموعة بيانات الأخوة المتاحة للصينية.
Huggingface H4 Stackexchange Termpplication مجموعة بيانات
- 10 ملايين سؤال (مع> = 2 إجابات) والإجابات (التي تم تسجيلها بناءً على عدد الأصوات) من Stackoverflow.
sharegpt.com
- 90K (اعتبارًا من عام 2023) تفاعلات ChatGPT المحملة للمستخدم.
للوصول إلى البيانات باستخدام واجهة برمجة تطبيقات ShareGPT ، راجع الوثائق هنا تم تعطيل API ShareGPT حاليًا ("بسبب حركة المرور الزائدة").- مجموعات بيانات مسبقة على Huggingface.
الألبكة
- 52K التعليمات والمظاهرات التي تم إنشاؤها بواسطة محرك Openai Text-Davinci-003 للتدريب على البنية الذاتية .
GPT4ALL
- 1M أزواج الاستجابة السريعة المجمعة باستخدام واجهة برمجة تطبيقات GPT-3.5-TURBO في مارس 2023. Github repo.
Databricks Dolly Dolly
- 15 كيلو كيلو تتبع السجلات التي تم إنشاؤها من قبل موظفي Databricks في فئات بما في ذلك العصف الذهني ، التصنيف ، ضمان الجودة المغلقة ، الجيل ، استخراج المعلومات ، ضمان الجودة المفتوح ، والتلخيص.
hh_golden
- 42K بيانات غير ضارة ، نفس المطالبات و "رفض" الاستجابات التي لا تكون ضارة في مجموعات بيانات HH البشرية ، ولكن يتم إعادة كتابة الاستجابات في الاستجابات "المختارة" باستخدام GPT4 لإعطاء إجابات أكثر ضرراً. يمكن العثور على المقارنة قبل وبعد إعادة كتابة هنا. من الناحية التجريبية ، مقارنةً بمجموعة البيانات الأصلية غير الضارة ، يعمل التدريب على مجموعة البيانات هذه على تحسين المقاييس غير الضارة لمختلف طرق المحاذاة مثل RLHF و DPO.