الجميع يحب chatgpt ، ولكن فقط عدد قليل من شركات التكنولوجيا أو المختبرات لديها القدرة على تدريب مثل هذه النماذج. في الآونة الأخيرة ، كان نهجًا ذاتيًا شائعًا في مجتمع المصادر المفتوحة: قم بإنشاء مجموعات بيانات التعليمات من خلال addruct/chatgpt ثم ضبطها على LLMs الصغيرة (مثل Llama 7B) ، والتي يمكن أن تحقق أيضًا "قابلة للمقارنة مع" ChatGPT ". واحدة من الوظائف النموذجية هي ستانفورد الألباكا.
حاليًا ، هناك عدد قليل جدًا من مجموعات بيانات التعليمات المفتوحة المصدر وهي في اللغة الإنجليزية بشكل أساسي. تتم ترجمة مجموعات بيانات التعليمات الصينية القليلة الوحيدة أيضًا على مجموعات البيانات الإنجليزية. ومع ذلك ، بالنظر إلى الطلب القوي للجميع على chatgpt ، فإننا نعتقد أن المزيد والمزيد من مجموعات بيانات التعليم الصينية على نطاق واسع ستظهر في المستقبل.
يهدف هذا المشروع إلى جمع مجموعات بيانات التعليمات الصينية بحيث يمكن للجميع أكثر صياغة LLMs الصينية.
| مجموعة البيانات | مقاس | وصف | مصدر |
|---|---|---|---|
| مجموعة بيانات Guanaco | 27808 | مجموعة بيانات التعليمات متعددة اللغات ، سيتم تحديث المقياس إلى 92530 | جواناكو |
| alpaca_chinese_dataset | التحديث | الترجمة الآلية + التحقق اليدوي لمجموعة بيانات الألبكة واستكمل بعض بيانات الحوار | ستانفورد الألباكا |
| ألباكا الصين-dataset | 20465 | الترجمة الآلية لمجموعة بيانات الألبكة | ستانفورد الألباكا |
| الصينية الليباكا لورا | التحديث | مجموعة بيانات الألبكة ترتقلها آلة. نموذج الترجمة هو GPT-3.5 توربو ، وسيتم دمجه مع مجموعة بيانات Guanaco في المستقبل. | ستانفورد الألباكا |
| GPT-4-LLM | 52 كيلو | تتم ترجمة مجموعة بيانات ALPACA PROPT باستخدام ChatGPT ، ثم يتم الحصول على الاستجابة الصينية باستخدام GPT-4. | ستانفورد الألباكا |
| Bellegroup/Train_0.5m_cn | 0.5m | مطالبة البذور الصينية التي أنشأها المؤلف ، باستخدام Text-Davinci-003 للحصول على استجابة | حسناء |
| Bellegroup/Train_1M_CN | 1M | بروب البذور الصينية هو نفسه كما هو مذكور أعلاه. يتم الحصول على الاستجابة باستخدام Text-Davinci-003. بالمقارنة مع مجموعة البيانات 0.5m ، قام المؤلف بتنظيف البيانات: تمت إزالة بعض البيانات منخفضة الجودة ، مثل البيانات التي تزعم أنها GPT模型، والبيانات التي لا يمكن للنموذج الإجابة عليها بسبب الإدخال غير المكتمل ، والبيانات التي تكون تعليماتها صينية ولكن الإدخال أو الهدف هي الإنجليزية. | حسناء |
| Bellegroup/School_math_0.25m | 0.25m | بيانات مشكلة الرياضيات الصينية ، بما في ذلك عملية حل المشكلات ، التي تم إنشاؤها بواسطة chatgpt | حسناء |
| Bellegroup/multiturn_chat_0.8m | 0.8 م | جولات متعددة من المحادثات بين المستخدمين والمساعدين ، تم إنشاؤها بواسطة ChatGPT | حسناء |
| Bellegroup/endered_chat_0.4m | 0.4m | بيانات الحوار المخصصة للدور ، بما في ذلك مقدمة الدور ، التي تم إنشاؤها بواسطة ChatGPT | حسناء |
| Bellegroup/Train_2M_CN | 2 م | بيانات التعليمات الصينية التي تم إنشاؤها بواسطة ChatGPT | حسناء |