في مجال الذكاء الاصطناعي ، تتمثل التجربة المكلفة في تغيير الطريقة التي يتم بها تدريب نماذج اللغة الكبيرة. أصدر فريق الأبحاث خطوة بخطوة مؤخراً نتيجة بحثية مهمة. قاموا بتدريب 3700 نموذج من مختلف الأحجام من الصفر من خلال إنفاق ما يقرب من مليون NVIDIA H800 GPU ساعات من قوة الحوسبة ، وتدريب ما مجموعه 100 تريليون رمز ، وكشفت عن قاعدة تحجيم عالمية تسمى "قانون الخطوة". يوفر هذا الاكتشاف اتجاهًا جديدًا جديدًا للتدريب الفعال لنماذج اللغة الكبيرة.
هذه الدراسة ليست مجرد استكشاف لتحسين الفصوص ، ولكن أيضًا فحصًا شاملاً لاستقرار النموذج المفرط المميزات المثلى تحت أشكال مختلفة وتوزيع البيانات. تُظهر نتائج البحث أن قانون الخطوة يظهر متانة للغاية بغض النظر عن التصميم المعماري للنموذج ولغة أو مجال بيانات التدريب ، مما يعزز بشكل كبير قيمة الأداة في التطبيقات العملية.
تغطي النماذج التي يبلغ عددها 3700 طرازات تدربها فريق الأبحاث تكوينات المقاييس المختلفة ، ومجموعات مختلفة من مقياس الفائقة ، وأشكال مختلفة ، ونسب بيانات مختلفة ، وتفاوت مختلف ، بما في ذلك بنية: MOE والكثافة. من خلال هذه التجارب الضخمة ، وجدوا أن معدل التعلم الأمثل يظهر تغييرًا في قانون الطاقة مع مقياس معلمة النموذج ومقياس البيانات ، ويرتبط حجم الدفعة الأمثل بشكل رئيسي بمقياس البيانات. هذا الاكتشاف يفسد الفهم التقليدي للصناعة لاتصالات الفائقة.

تُظهر البيانات التجريبية أنه في ظل حالة حجم النموذج الثابت وحجم البيانات ، يقدم المشهد المحسّن غير المحسّن خصائص محدبة واضحة ، مما يعني أن هناك منطقة مستقرة وسهلة الثمن. للتحقق من ذلك ، قام فريق البحث ببناء مساحة بصرية ثلاثية الأبعاد لإثبات تأثير معدل التعلم وحجم الدُفعة على خسائر التدريب. تُظهر النتائج بوضوح شكل "الوادي" ، مع كون نهاية القاع المحدب مساحة مسطحة نسبيًا ، والتي توفر أساسًا نظريًا ثمينًا لضبط الفرق في الممارسة العملية.
لجعل هذا الاكتشاف يفيد مجتمع الذكاء الاصطناعى بأكمله ، قام الفريق بتطوير وأطلق أداة تقدير شائعة مثالية لقياس الفائق. بالمقارنة مع المداخلات الأمثل العالمية التي تم الحصول عليها من خلال البحث الشامل ، فإن فجوة الأداء بين نتائج التنبؤ لهذه الأداة هي 0.09 ٪ فقط. هذا يعني أن الباحثين والمهندسين لم يعد بإمكانهم الاعتماد على عمليات البحث عن الشبكة باهظة الثمن ، ولكنهم يحصلون بشكل مباشر على تكوينات فرط الأدوات المثلى من خلال هذه الأداة.
ما هو أكثر إثارة للإعجاب هو عالمية قانون الخطوة. تحقق فريق البحث عن نطاق التطبيق من ثلاث زوايا مختلفة: أولاً ، بغض النظر عن كيفية تغير شكل النموذج - سواء كان متحيزًا نحو العرض أو العمق أو التوازن بين العمق - يمكن أن يتنبأ قانون الخطوة بدقة بمنطقة الفائقة المثلى ؛ ثانياً ، لا تنطبق هذه القاعدة على النموذج الكثيف فحسب ، بل تمتد أيضًا إلى نماذج Moe مع انتفاخ مختلف ؛ أخيرًا ، ما إذا كانت بيانات التدريب هي توزيع الخطوة التي تقودها اللغة الإنجليزية ، أو الصينية-الإنجليزية ثنائية اللغة ، أو الكود والمختلط ، أو التوزيع القائم على الكود ، فإن قانون الخطوة يدل على استقرار مدهش.
يكشف البحث أيضًا عن اتجاه تحسين استراتيجيات جدولة معدل التعلم. على عكس استراتيجيات تسوس معدل التعلم التقليدية ، اقترح الفريق تبني معدل تعليمي ثابت ثابت (1E-5) بدلاً من تحديد الحد الأدنى لقيمة واحدة العاشرة من القيمة القصوى في الطريقة التقليدية. يسمح هذا التغيير بالتدريب للحفاظ على حجم خطوة تحديث المعلمة الأكثر منطقية في المرحلة اللاحقة ، وتجنب بشكل فعال التذبذب المستمر لوظيفة الخسارة في مرحلة التقارب.
بالإضافة إلى ذلك ، وجدت الدراسة أن خسائر التدريب في التنعيم تتسق بشكل كبير مع فرط البرارامات المثلى لخسائر التحقق ، والتي توفر مقاربة أكثر اقتصادا لاختيار فرط البارامتر - يمكن للباحثين توجيه تعديلات المتقاعٍ المفرطة عن طريق مراقبة خسائر التدريب في تنعيم دون تقييم أداء النموذج بشكل متكرر على مجموعة التحقق.
على الرغم من النتائج الرائعة ، اعترف فريق أبحاث Jieyuexing أن هذه مجرد بداية. يخططون لإجراء تفاصيل مختلفة عن تجارب مفتوحة المصدر ، بما في ذلك نقاط التفتيش النهائية لما يقرب من 4000 نموذج ، للحصول على مزيد من التحليل المتعمق والتفسيرات النظرية في جميع أنحاء المجتمع. تشمل اتجاهات البحث المستقبلية استكشاف محدب الفضاء ثلاثي الأبعاد لخسارة BS-LR ، مما يؤدي إلى تحسين طريقة التركيب لفرط البرارامات المثلى ، وشرح التغييرات في المنطقة المثلى التالية من التكوينات المختلفة ، والبحث المتعمق في ديناميات التدريب تحت إعدادات مختلفة.
قد تناقش عمل المتابعة في سلسلة المقياس المتوقعة التنبؤ بأداء النموذج الفائق ، وخصائص التحجيم للرمز والرياضيات ، وخصائص التحجيم لأنواع الاهتمام المختلفة. يمكن توقع أن توفر هذه السلسلة من الأبحاث إرشادات نظرية أكثر شمولاً وأدوات عملية للتدريب الفعال لنماذج اللغة الكبيرة ، وتعزيز تكنولوجيا الذكاء الاصطناعي لتطوير في اتجاه أكثر كفاءة ويمكن التحكم فيها.