أعلن فريق Doubao Mockup من Bytedance مؤخرًا عن اختراق تكنولوجي رئيسي ، حيث نجح في التغلب على عنق الزجاجة الرئيسي لهندسة النموذج الخبير المختلط (MOE) ، ومفتوح المصدر تقنية تحسين تسمى Comet. لا تعمل هذه التكنولوجيا على تحسين كفاءة التدريب للنماذج الكبيرة فحسب ، بل تعمل أيضًا على تقليل تكاليف التدريب بشكل كبير ، مما يجلب فرص تطوير جديدة إلى مجال النماذج الكبيرة.
يكمن جوهر تقنية المذنب في إمكانات التحسين الفعالة ، والتي يمكن أن تزيد من كفاءة التدريب للنماذج الكبيرة إلى 1.7 مرة ، مع تقليل تكاليف التدريب بنسبة 40 ٪. تم تطبيق هذه النتيجة المسبقة عملياً في تدريب Wanka Cluster في Bytedance ، مما يوفر ملايين ساعات GPU من قوة الحوسبة التدريبية في المجموع ، مما يدل على أدائها القوي في السيناريوهات الفعلية.
بالمقارنة مع حلول تحسين MOE مثل DualPipe ، والتي يتم الحصول عليها من قبل Deepseek ، فإن Comet Technology لديها توافق أقوى وراحة. يمكنه الاتصال مباشرة بإطار تدريب MOE الحالي مثل المكون الإضافي ، ودعم النماذج الكبيرة السائدة في الصناعة دون تعديلات غازية على إطار التدريب. ميزة التكامل السلس هذه تجعل المذنب أكثر مرونة وفعالية في التطبيقات الفنية.
توضح البيانات الفنية أنه بعد إدخال Comet ، يمكن لطبقة Moe واحدة تحقيق تسارع 1.96 مرة ، وزيادة متوسط الكفاءة من طرف إلى نهاية 1.71 مرة. بالإضافة إلى ذلك ، أظهرت Comet أداءً مستقرًا في استراتيجيات متوازية مختلفة ومقاييس الإدخال وبيئات الأجهزة ، مما يدل على تطبيقه الواسع. والأكثر جدارة بالملاحظة هو أنه يمكن أيضًا استخدام المذنب بالاقتران مع حل Deepseek DualPipe ، والذي من المتوقع أن يزيد من تكلفة التدريب النموذجية بشكل كبير.
لا شك أن المصدر المفتوح لهذه التكنولوجيا يجلب اختراقات جديدة إلى مجال النماذج الكبيرة ، ومن المتوقع أن يسرع البحث والتطوير وتطبيق النماذج الكبيرة. من خلال تقليل تكاليف التدريب وتحسين الكفاءة ، ستوفر Comet Technology الدعم لمزيد من المؤسسات والمؤسسات البحثية لتعزيز التطوير الإضافي لتكنولوجيا الذكاء الاصطناعي.
عنوان الورق: https://arxiv.org/pdf/2502.19811
عنوان مفتوح المصدر: https://github.com/bytedance/flux؟continueflag=c1d74dd2912ab3909a1a27fe4f5cf519