في الآونة الأخيرة ، تم إدخال انفراج كبير في مجال الذكاء الاصطناعي. أعلنت Moonshot عن المصدر المفتوح لأحدث مُحسِّن ، Muon ، وهي تقنية مبتكرة ستزيد من كفاءة الحوسبة إلى ضعف مستوى Adamw التقليدي. يتزامن إصدار هذه الأخبار مع المصدر المفتوح القادم من مكتبات الكود المتعددة ، والتي أثارت اهتمامًا واسع النطاق والمناقشة الساخنة في هذه الصناعة.
تم اقتراح مُحسِّن Muon في الأصل في عام 2024 من قبل باحث Openai Keller Jordan وآخرون ، وقد كان أداءً جيدًا في تدريب النماذج الصغيرة. ومع ذلك ، مع توسيع حجم النموذج ، واجه Muon الأصلي عنق الزجاجة في تحسين الأداء. لحل هذه المشكلة ، قام فريق Dark Side بإجراء تحسينات تقنية متعمقة ، بما في ذلك إضافة تحديثات تسوس الوزن وتحديثات Square Square (RMS) المتسقة لدعم تطبيق Muon في التدريب على نطاق واسع دون الحاجة إلى تعديلات HyperParameter.
تم تطبيق مُحسِّن Muon الجديد على أحدث طراز Moonlight Model ، وهو نموذج خبير مختلط (MOE) مع معلمات 3B/16B. بعد تدريب 5.7 تريليون رموز ، تحسن أداء نموذج ضوء القمر بشكل كبير وأصبح "حدود باريتو" الحالية. هذه النتيجة تعني أن نموذج ضوء القمر يتفوق على نماذج أخرى في جميع مقاييس الأداء في ظل ميزانية التدريب نفسها.
يفتح الجانب المظلم من Moon أيضًا مدونة تنفيذ Muon وأصدرت نقاط التفتيش المقابلة قبل التدريب والمتوسط ، مما يوفر موارد قيمة للبحث اللاحق للباحثين. تشير الأبحاث إلى أن مُحسِّن Muon يتطلب 52 ٪ فقط من زحف Adamw أثناء التدريب ، مما يتحقق من كفاءته في التدريب على نموذج اللغة على نطاق واسع.
لا يتجاوز مُحسِّن Muon للجانب المظلم من القمر فقط الأمراض التقليدية في الأداء ، ولكن أيضًا يضخ الحيوية الجديدة في تطوير حقل الذكاء الاصطناعي بأكمله من خلال المصدر المفتوح. مع مشاركة المزيد والمزيد من الباحثين والمطورين ، من المتوقع أن يدفع هذا المُحسِّن المزيد من التقدم في تكنولوجيا الذكاء الاصطناعي.
عنوان الورق: https://github.com/moonshotai/moonlight/blob/master/moonlight.pdf