في مجال الذكاء الاصطناعي ، يمثل إطلاق Deepseek-R1 اختراقًا كبيرًا في تقنية الذكاء الاصطناعي. لا يوضح هذا الابتكار التطور السريع لصناعة الذكاء الاصطناعى فحسب ، بل يفتح أيضًا إمكانيات جديدة لتطبيقات الذكاء الاصطناعى المستقبلي من خلال بنية الاهتمام الكامنة متعددة الرأس الفريدة (MLA). من خلال تقنية الضغط المنخفضة الرتبة ، تقلل بنية MLA بشكل كبير من تكلفة التدريب والاستدلال ، مما يجعلها فقط عُشر النموذج الكبير في الأداء نفسه. تم الانتهاء من هذه النتيجة بشكل مشترك من قبل جي تاو ، زميل ما بعد الدكتوراه في مختبر NLP في جامعة فودان وفريقه. هدفهم هو تمكين نماذج اللغة الكبيرة التي تم تدريبها مسبقًا من الانتقال بسرعة إلى بنية MLA من خلال إطار MHA2MLA دون الحاجة إلى التدريب من الصفر.
حاليًا ، تعتمد النماذج الكبيرة السائدة عمومًا على آليات الاهتمام المتعددة الرؤوس القياسية (MHA) ومتغيراتها ، والتي لها عيوب كبيرة في تكاليف الاستدلال مقارنة بـ MLA. لحل هذه المشكلة ، اقترح فريق البحث إطار عمل MHA2MLA ، والذي حقق بنجاح هجرة بنية MHA/GQA إلى MLA من خلال خطوتين رئيسيتين-جزء من الاحتفاظ بالحبل والفصل الرئيسي لقيمة لتمثيل التقريب المنخفض. هذا الابتكار لا يحسن فقط كفاءة النموذج ، ولكنه يوفر أيضًا المزيد من الاحتمالات لتطبيقات الذكاء الاصطناعي في المستقبل.

أثناء تنفيذ MHA2MLA ، قام الفريق أولاً بفصل الموقع الذي يشفر من البعد الكبير من خلال بعض استراتيجيات صقل الحبل ، مع الاحتفاظ بعدد صغير من الأبعاد المتعلقة بالموقع ، وبالتالي حل الصراع بين MLA والحبل. بعد ذلك ، يتم تنفيذ تقريب منخفضة الرتبة لناقلات القيمة الرئيسية بواسطة تقنية تحلل القيمة المفرد (SVD) لزيادة المعرفة قبل التدريب مع تقليل مساحة ذاكرة التخزين المؤقت بشكل كبير. تظهر النتائج التجريبية أن الضبط الدقيق فقط مطلوب لاستخدام 0.3 ٪ إلى 0.6 ٪ من البيانات المسبقة لاستعادة خسائر الأداء بشكل أساسي أثناء الترحيل. هذا الإنجاز لا يوضح فقط كفاءة إطار MHA2MLA ، ولكنه يوفر أيضًا اتجاهات جديدة لأبحاث الذكاء الاصطناعي في المستقبل.
بعد الاندماج مع تقنيات الاستدلال الفعالة الأخرى ، مثل تقدير ذاكرة التخزين المؤقت 4 بت KV ، انخفضت ذاكرة التخزين المؤقت KV لنموذج LLAMA2-7B بنسبة 92.19 ٪ في حين أن فقدان الأداء هو 0.5 ٪ فقط. توضح هذه النتيجة التوافق الفائق لإطار MHA2MLA في تكنولوجيا الضغط ، مع الحفاظ على قدرة الاستدلال للنموذج وقدرة معالجة السياق الطويل ، مما يوفر مسارًا جديدًا جديدًا لنشر نماذج لغة كبيرة موفرة للموارد. هذا الابتكار لا يحسن فقط كفاءة النموذج ، ولكنه يوفر أيضًا المزيد من الاحتمالات لتطبيقات الذكاء الاصطناعي في المستقبل.
ومع ذلك ، أشار فريق البحث أيضًا إلى أن التجربة محدودة بسبب ظروف الأجهزة ولم تتم تغطيتها بعد مثل LLAMA3 التي تتطلب صقل سياق يبلغ طوله 128 ألفًا. ستركز الأبحاث المستقبلية على التوسع إلى المزيد من بنيات النماذج ، والجمع بين استراتيجيات ضبط المعلمة الفعالة لزيادة الحد من تحديثات المعلمات أثناء عملية الترحيل. ستوفر الأبحاث في هذا الاتجاه المزيد من الاحتمالات لتطبيقات الذكاء الاصطناعي في المستقبل وتعزيز تطوير تكنولوجيا الذكاء الاصطناعى.