في الآونة الأخيرة ، أصدر فريق Ling of Ant Group ورقة تقنية مقنعة على منصة Arxiv preprint ، بعنوان "كل Flop أمر بالغ الأهمية: توسيع نطاق 300 مليار معلمة خبراء مختلط Ling بدون وحدة معالجة رسمية متقدمة." تفاصيل هذه الورقة نموذجين جديدان للغة كبيرة قاموا بتطويرهما: Ling-Lite و Ling-Plus. تم تصميم النموذجين مع العديد من التقنيات المبتكرة التي يمكن تدريبها بكفاءة على أجهزة منخفضة الأداء ، مما يقلل بشكل كبير من التكاليف.
يبلغ حجم المعلمة من الإصدار الخفيف للوزن 16.8 مليار ، منها معلمات التنشيط 2.75 مليار. يحتوي نموذج Dock المحسّن على 290 مليار معلمة و 28.8 مليار معلمة تنشيط. يصل أداء كلا النموذجين إلى المستوى الرائد في الصناعة ، وخاصة النسخة المحسنة. يعمل نموذج MOE البالغ 300 مليار معلميات قابلة للمقارنة مع نماذج رقائق NVIDIA المتطورة عند تدريبها على أجهزة منخفضة الأداء باستخدام وحدات معالجة الرسومات المحلية.

عادةً ما يتطلب تدريب نماذج MOE الاعتماد على وحدات معالجة الرسومات عالية الأداء باهظة الثمن ، مثل H100 و H800 من NVIDIA ، والتي ليست مكلفة فحسب ، ولكنها محدودة أيضًا بسبب نقص الرقائق ، مما يؤثر على تطبيقه في البيئات المحدودة للموارد. تحقيقًا لهذه الغاية ، اقترح فريق ANT Group Ling هدفًا جديدًا - "عدم استخدام وحدات معالجة الرسومات المتقدمة" لتوسيع النموذج ، واختراق قيود الموارد والميزانية. تشمل استراتيجيات التدريب المبتكرة تخصيص المعلمات الديناميكية ، وجدولة دقة مختلطة ، وآليات معالجة استثناءات التدريب التي تمت ترقيتها. تقصر هذه الاستراتيجيات بشكل فعال وقت الاستجابة المقاطعة ، وتحسين عملية تقييم النموذج ، ودورات التحقق من صحة الضغط بأكثر من 50 ٪.
خلال التجربة ، أجرى فريق Ling Ling-Plus قبل التدريب على 9 تريليونات رمز. أظهرت النتائج أن تكلفة تدريب رمز تريليون دولار باستخدام تكوين الأجهزة عالي الأداء حوالي 6.35 مليون يوان ، بينما بعد استخدام طريقة تحسين ANT ، تم تخفيض تكلفة التدريب للأجهزة المنخفضة المواصفات إلى حوالي 5.08 مليون يوان ، مما يوفر ما يقرب من 20 ٪. في الوقت نفسه ، يكون الأداء مشابهًا لـ Alibaba Tongyi Qwen2.5-72b-instruct و Deepseek-V2.5-1210-Chat.
إذا كان من الممكن استخدام هذا الإنجاز التكنولوجي على نطاق واسع ، فسيوفر المزيد من الحلول الفعالة من حيث التكلفة للنماذج الكبيرة المحلية ، وتقليل الاعتماد على رقائق NVIDIA ، ويفتح مسارًا جديدًا للتطور المستقبلي للذكاء الاصطناعي.