في مجال الذكاء الاصطناعي ، أصدر فريق Deepseek مؤخرًا نتيجة بحثية اختراق ، حيث أطلق آلية انتباه متناثرة مبتكرة تسمى NSA (الاهتمام المتناثر الأصلي). الهدف الأساسي لهذه التكنولوجيا هو إحداث ثورة في تطوير وتطبيق نماذج الذكاء الاصطناعى من خلال تحسين أداء الأجهزة الحديثة وتحسين سرعة التدريب والاستدلال على السياق الطويل بشكل كبير.
يمثل إطلاق تكنولوجيا NSA تحسنا كبيراً في كفاءة التدريب لنماذج الذكاء الاصطناعي. من خلال التحسين العميق لأجهزة الحوسبة الحديثة ، لا تحسن NSA بشكل كبير من سرعة الاستدلال ، ولكن أيضًا يقلل بشكل كبير من تكلفة التدريب المسبق. الأهم من ذلك ، مع تحسين الكفاءة ، لا تزال NSA تحافظ على مستويات عالية من الأداء النموذجية ، مما يضمن أدائها المتميز في مجموعة متنوعة من المهام.
اعتمد فريق Deepseek استراتيجية متناثرة في الدراسة ، وتقسيم آلية الانتباه إلى ثلاثة فروع رئيسية: الضغط ، والاختيار ، والنوافذ المنزلق. يتيح هذا التصميم للنموذج التقاط كل من السياق العالمي والتفاصيل المحلية ، مما يؤدي بشكل كبير إلى تحسين قوة معالجة النموذج للنص الطويل. بالإضافة إلى ذلك ، أدى تحسين NSA في الوصول إلى الذاكرة وجدولة الحوسبة إلى تقليل التأخير الحسابي واستهلاك الموارد للتدريب الطويل على السياق.
توضح NSA أدائها المتميز في سلسلة من المعايير العامة. خاصة في مهام السياق الطويلة والتفكير القائم على التعليمات ، فإن أداء NSA يمكن مقارنته بنموذج الاهتمام الكامل ، وفي بعض الحالات يكون أفضل. لا يمثل إصدار هذه التكنولوجيا قفزة أخرى في تقنية التدريب والتفكير الذكاء ، ولكن أيضًا يضخ قوة دافعة جديدة في التطوير المستقبلي للذكاء الاصطناعي.
ورقة NSA (https://arxiv.org/pdf/2502.11089v1).
يؤدي إدخال تكنولوجيا NSA إلى تحسين سرعة التدريب الطويل للسياق والتفكير ويقلل من تكاليف ما قبل التدريب. تم اعتماد الاستراتيجية المتفرقة ذات الطبقات لتقسيم آلية الانتباه إلى ضغطات واختيار ونظاماء النوافذ المنزلق ، مما يعزز قدرة معالجة النموذج للنص الطويل. كان أداء NSA جيدًا في العديد من المعايير ، وفي بعض الحالات تجاوزت نموذج الاهتمام التقليدي الكامل.