مع التطور السريع لتكنولوجيا الذكاء الاصطناعي ، أطلق فريق Deepseek نظام الاستدلال الجديد Deepseek-V3/R1. يهدف هذا النظام إلى زيادة التطور الفعال للذكاء الاصطناعي العام (AGI) من خلال إنتاجية أعلى وانخفاض الكمون. لتحقيق ذلك ، يعتمد Deepseek تقنية التوازي الخبراء (EP) ، ويحسن بشكل كبير من كفاءة حوسبة GPU ويقيس معالجة الدُفعات مع تقليل الكمون.
جوهر Deepseek-V3/R1 هو تفاوته العالي للغاية ، حيث يتم تنشيط 8 خبير فقط من 256 من الخبراء في كل طبقة من الطراز ، لذلك يلزم حجم دفعة كبيرة جدًا لضمان حصول كل خبير على قوة معالجة كافية. تتبنى بنية هذا النظام طريقة التفاضل المسبق لما قبل الرمز ، وتبني درجات مختلفة من استراتيجيات التوازي خلال مراحل مرحلة فك التشفير.
خلال مرحلة ما قبل الملء ، يخفي النظام تكاليف الاتصال من خلال استراتيجية تداخل مزدوجة الدُفعات ، مما يعني أنه عند معالجة مجموعة واحدة من الطلبات ، يمكن إخفاء تكاليف الاتصال الخاصة بدفعة أخرى من خلال عملية الحساب ، وبالتالي تحسين الإنتاجية الإجمالية. في مرحلة فك التشفير ، استجابةً لخلل الوقت في مراحل التنفيذ المختلفة ، يعتمد Deepseek طريقة خط أنابيب من خمسة مستويات لتحقيق تداخل سلس وحساب.
للتعامل مع عدم المساواة في الحمل الناجم عن التوازي على نطاق واسع ، أنشأ فريق Deepseek موازنات متعددة. تلتزم موازنات الحمل هذه بموازنة الأحمال الحاسوبية والاتصالات في جميع وحدات معالجة الرسومات ، وتجنب أن تصبح وحدة معالجة الرسومات واحدة عنق الزجاجة الأداء بسبب عمليات التحميل الزائد ، وضمان الاستخدام الفعال للموارد.
فيما يتعلق بأداء الخدمة ، تعمل خدمة الاستدلال Deepseek-V3/R1 على H800GPU ، باستخدام تنسيقات Matrix وتنسيقات الإرسال بما يتوافق مع عملية التدريب. وفقًا لآخر الإحصاءات ، قام النظام بمعالجة 608 مليار رموز إدخال في غضون الـ 24 ساعة الماضية ، مع أعلى معدل إشغال العقدة البالغ 278 ، ومتوسط معدل الإشغال اليومي 226.75 ، وأداء الخدمة الإجمالي جيد.
من خلال التصميم المعماري الفعال وإدارة الحمل الذكية ، لا يحسن نظام الاستدلال Deepseek-V3/R1 فقط أداء الاستدلال لنماذج الذكاء الاصطناعي ، ولكنه يوفر أيضًا دعمًا قويًا للبنية التحتية لأبحاث AGI في المستقبل.
المشروع: https://github.com/deepseek-ai/open-infra-index/blob/main/202502opensourceWeek/day_6_one_more_deesekv3r1_inference_system_overview.md
النقاط الرئيسية:
يحقق نظام الاستدلال Deepseek-V3/R1 إنتاجية أعلى ودرجة زمنية أقل من خلال التكنولوجيا المتوازية الخبراء عبر العقدة.
يتم اعتماد استراتيجية التداخل المزدوجة وخطوط الأنابيب الخمسة على مستوى لتحسين كفاءة الحوسبة وتحسين عملية الاتصال.
قم بإعداد مجموعة متنوعة من موازنات الحمل لضمان الاستخدام الفعال للموارد بين وحدات معالجة الرسومات وتجنب اختناقات الأداء.