تحجيم قوانين لتعلم اللغة
رمز ونماذج من مدونة نشر قوانين التحجيم لتعلم نقل اللغة
تحفيز
بناءً على العمل من قوانين التحجيم للنقل (Hernandez et.
الاستخدام
يحتوي هذا الريبو على رمز:
- استنساخ محولات Decoder-Deconder فقط التي تم تدريبها فقط باستخدام مكافآت عالية من قوانين التحجيم للغات العصبية ولكن تم تدريبها على OpenWebText2 بدلاً من webText
- إعادة إنتاج تجارب نقل اللغة لنماذج اللغة الإنجليزية المدربة مسبقًا للنصوص الصينية والإسبانية والألمانية
تم تدريب جميع النماذج الإنجليزية التي تم تدريبها مسبقًا على 26 مليار رمز بدون تكرار:
- X6SMALL 3.3M غير المعلمات
- X5SMALL 16M المعلمات غير المدمجة
- X4SMALL 39M غير المعلمات
- X3SMALL 51M غير المعلمات
- x2SMALL 70M غير المعلمات
- 124 متر صغير غير بغيض
مجموعات البيانات
- اللغة الإنجليزية: OpenWebText2
- الألمانية: أوسكار
- الإسبانية: أوسكار
- الصينية: المجتمع QA (WebText2091ZH)