chinese instruction datasets for llms - chinese instruction datasets for llms تنزيل رمز المصدر

chinese instruction datasets for llms

كود الذكاء الاصطناعي

1.0.0

تنزيل

مجموعات بيانات التعليمات الصينية لـ LLMS

الجميع يحب chatgpt ، ولكن فقط عدد قليل من شركات التكنولوجيا أو المختبرات لديها القدرة على تدريب مثل هذه النماذج. في الآونة الأخيرة ، كان نهجًا ذاتيًا شائعًا في مجتمع المصادر المفتوحة: قم بإنشاء مجموعات بيانات التعليمات من خلال addruct/chatgpt ثم ضبطها على LLMs الصغيرة (مثل Llama 7B) ، والتي يمكن أن تحقق أيضًا "قابلة للمقارنة مع" ChatGPT ". واحدة من الوظائف النموذجية هي ستانفورد الألباكا.

حاليًا ، هناك عدد قليل جدًا من مجموعات بيانات التعليمات المفتوحة المصدر وهي في اللغة الإنجليزية بشكل أساسي. تتم ترجمة مجموعات بيانات التعليمات الصينية القليلة الوحيدة أيضًا على مجموعات البيانات الإنجليزية. ومع ذلك ، بالنظر إلى الطلب القوي للجميع على chatgpt ، فإننا نعتقد أن المزيد والمزيد من مجموعات بيانات التعليم الصينية على نطاق واسع ستظهر في المستقبل.

يهدف هذا المشروع إلى جمع مجموعات بيانات التعليمات الصينية بحيث يمكن للجميع أكثر صياغة LLMs الصينية.

مجموعة البيانات	مقاس	وصف	مصدر
مجموعة بيانات Guanaco	27808	مجموعة بيانات التعليمات متعددة اللغات ، سيتم تحديث المقياس إلى 92530	جواناكو
alpaca_chinese_dataset	التحديث	الترجمة الآلية + التحقق اليدوي لمجموعة بيانات الألبكة واستكمل بعض بيانات الحوار	ستانفورد الألباكا
ألباكا الصين-dataset	20465	الترجمة الآلية لمجموعة بيانات الألبكة	ستانفورد الألباكا
الصينية الليباكا لورا	التحديث	مجموعة بيانات الألبكة ترتقلها آلة. نموذج الترجمة هو GPT-3.5 توربو ، وسيتم دمجه مع مجموعة بيانات Guanaco في المستقبل.	ستانفورد الألباكا
GPT-4-LLM	52 كيلو	تتم ترجمة مجموعة بيانات ALPACA PROPT باستخدام ChatGPT ، ثم يتم الحصول على الاستجابة الصينية باستخدام GPT-4.	ستانفورد الألباكا
Bellegroup/Train_0.5m_cn	0.5m	مطالبة البذور الصينية التي أنشأها المؤلف ، باستخدام Text-Davinci-003 للحصول على استجابة	حسناء
Bellegroup/Train_1M_CN	1M	بروب البذور الصينية هو نفسه كما هو مذكور أعلاه. يتم الحصول على الاستجابة باستخدام Text-Davinci-003. بالمقارنة مع مجموعة البيانات 0.5m ، قام المؤلف بتنظيف البيانات: تمت إزالة بعض البيانات منخفضة الجودة ، مثل البيانات التي تزعم أنها `GPT模型`، والبيانات التي لا يمكن للنموذج الإجابة عليها بسبب الإدخال غير المكتمل ، والبيانات التي تكون تعليماتها صينية ولكن الإدخال أو الهدف هي الإنجليزية.	حسناء
Bellegroup/School_math_0.25m	0.25m	بيانات مشكلة الرياضيات الصينية ، بما في ذلك عملية حل المشكلات ، التي تم إنشاؤها بواسطة chatgpt	حسناء
Bellegroup/multiturn_chat_0.8m	0.8 م	جولات متعددة من المحادثات بين المستخدمين والمساعدين ، تم إنشاؤها بواسطة ChatGPT	حسناء
Bellegroup/endered_chat_0.4m	0.4m	بيانات الحوار المخصصة للدور ، بما في ذلك مقدمة الدور ، التي تم إنشاؤها بواسطة ChatGPT	حسناء
Bellegroup/Train_2M_CN	2 م	بيانات التعليمات الصينية التي تم إنشاؤها بواسطة ChatGPT	حسناء

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-09-10
الحجم 5.95KB
من Github

تطبيقات ذات صلة

PHPOPt لـ IIS

2013-01-18
WNPM لنظام التشغيل Windows

2009-06-26
ZLPMServer لـ IIS

2009-06-23
برنامج Flashgot لمتصفح فايرفوكس

2009-06-22
اي تيونز لنظام التشغيل Windows

2009-06-03
اياكس للدمى

2009-05-23

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل