يحتوي المستودع على رمز لتكوين نموذج 28M Param GPT-2 لتدريبه على مجموعة بيانات Tinystories مثل ورقة Tinystories. في الورقة ، استخدموا العديد من الاختلافات من نموذج GPT-2 و GPT-NEO ، ولكن GPT-2 كان إصدار الأضواء. لقد حاولوا إظهار أنه يمكنك إنشاء SLM (نموذج لغة صغير) حتى المعاملات الصغيرة الحجم حتى يكون من المنطقي والتنافس ضد LLMS.
أنا فقط أقوم بتقديم الكود لتكوين نموذج 28M كمحولات تواجه مشكلة حاليًا لتثبيت transformers==4.2.2 ويتطلب المحولات الجديدة تسريعًا إذا كنت تستخدم Pytorch وتتطلب partial state لست متأكدًا من كيفية حل خطأ الحالة الجزئية على الأقل الآن. ولكن ، أردت أن تهيئة الطريقة طراز 28M في أسرع وقت ممكن! وهذا هو السبب ، أنا فقط أقدم رمز التكوين. سيتم تحديث REPO لاحقًا لإضافة رمز التدريب.
التحديثات القادمة:
.txtالتحديثات الحالية:
مجموعة البيانات: كانت مجموعة بيانات Tinystories جزءين `` `1. ستستغرق مجموعة بيانات GPT-3.5 التي تم إنشاؤها في Turbo and 2.gpt-4 التي تم إنشاؤها من مجموعة البيانات التي تم إنشاؤها إلى كلاهما مساحة هوي ، ولهذا السبب ، أعطي فقط مجموعة بيانات GPT-3.5 Turbo . رابط محرك Google
في رابط Google Drive المتوفر في قسم مجموعات البيانات ، تجد كل من مجموعات بيانات GPT-3.5 (Turbo) و GPT-4 المستخدمة من قبل Autors 'Autors'
من فضلك ، قم بتعيين المستودع إذا وجدت أنه مفيد ومساعدة الآخرين على العثور عليه. رابط الورق