في مجال الذكاء الاصطناعي ، أصبح تدريب نماذج اللغة الكبيرة (LLMS) اتجاهًا مهمًا لتعزيز التقدم التكنولوجي. ومع ذلك ، مع استمرار التوسع في حجم النموذج ومجموعات البيانات ، كشفت أساليب التحسين التقليدية - على وجه الخصوص ADAMW - تدريجياً عن حدودها. يواجه الباحثون سلسلة من التحديات مثل التكاليف الحسابية العالية وعدم الاستقرار في التدريب ، بما في ذلك اختفاء التدرج أو الانفجار ، وتحديثات مصفوفة المعلمة غير المتناسقة ، ومتطلبات الموارد العالية في البيئات الموزعة. لذلك ، هناك حاجة ماسة إلى تقنيات التحسين الأكثر كفاءة وأكثر استقرارًا للتعامل مع هذه التعقيدات.
لمواجهة هذه التحديات ، طورت Moonshot AI (الجانب المظلم من القمر) و UCLA ضوء القمر المشترك ، وهو نموذج خليط من الخبرة (MOE) باستخدام مُحسِّن Muon. يوفر Moonlight تكوينين: أحدهما هو المعلمة التنشيط هي 3 مليارات ، والآخر هو المعلمة الإجمالية 16 مليار ، واستخدمت 5.7 تريليون علامة للتدريب. يكمن ابتكار Muon Optimizer في استخدام طريقة Newton-Schultz التكرارية لأداء تعامد المصفوفة لضمان توحيد تحديثات التدرج في مساحة المعلمة النموذجية. يوفر هذا التحسن بديلاً واعداً للآدمو التقليدي ، مما يؤدي إلى تحسين كفاءة التدريب والاستقرار.

فيما يتعلق بالتفاصيل الفنية ، قام Moonlight بإحالة قرصين رئيسيين لمحسّن Muon. أولاً ، يتم تقديم تقنية تسوس الوزن للسيطرة على نمو الأوزان أثناء تدريب النماذج الكبيرة والعلامات الكبيرة. ثانياً ، يتم معايرة سعة التحديث لكل معلمة بحيث يتم تحجيمها وفقًا للجذر التربيعي لأقصى البعد لمصفوفة الوزن ، وبالتالي تحقيق اتساق التحديثات.
من خلال التقييم التجريبي لضوء القمر ، وجد الباحثون أن أدائها في نقاط التفتيش المتوسطة كان أفضل من نموذج تدريب Adamw التقليدي. على سبيل المثال ، في مهمة فهم اللغة ، حصل Moonlight على درجات أعلى على معيار MMLU. في مهام توليد الكود ، يكون تحسين الأداء أكثر وضوحًا ، مما يشير إلى أن آلية تحسين Muon قد ساهمت بشكل إيجابي في أداء المهمة.
سوف يجلب التنفيذ الناجح لمشروع ضوء القمر معايير جديدة لتدريب نماذج اللغة الكبيرة. من المتوقع أن يسهل التنفيذ المفتوح المصدر لمحسّن Muon وإصدار النماذج المدربة مسبقًا ونقاط التفتيش الوسيطة المزيد من البحث حول تقنيات التحسين القابلة للتطوير.
github: https: //github.com/moonshotai/moonlight؟ tab = readMe-ov-file
Luggingface: https: //huggingface.co/Moonshotai/Moonlight-16b-a3b
ورقة: https://github.com/moonshotai/moonlight/blob/master/moonlight.pdf
النقاط الرئيسية:
نموذج ضوء القمر عبارة عن نموذج خليط من الخبرة تم تطويره بشكل مشترك بواسطة Moonshot AI و UCLA. ويوفر 3 مليارات و 16 مليار تكوينات المعلمة ويستخدم 5.7 تريليون علامة للتدريب.
يحسن مُحسِّن Muon بشكل كبير من كفاءة واستقرار التدريب على نطاق واسع من خلال طريقة التكرار Newton-Schultz وتكنولوجيا تسوس الوزن.
تظهر النتائج التجريبية أن ضوء القمر أفضل من نماذج تدريب Adamw التقليدية في مهام متعددة ، مما يدل على فهم اللغة بشكل أفضل وقدرات توليد الكود.