هل ما زلت مجنونا بشأن "سرعة" معالجة النصوص الطويلة في النماذج الكبيرة؟ لا تقلق! أطلقت جامعة Tsinghua تقنية "King Bomb" - APB إطار التفكير المتوازي ، وقامت مباشرة بتجهيز المحرك "الشاحن التوربيني" إلى النماذج الكبيرة! تُظهر الاختبارات الفعلية أنه عند معالجة النص الطويل للغاية ، تكون هذه التكنولوجيا السوداء أسرع في الواقع 10 مرات من اهتمام الفلاش! هذا صحيح ، لقد سمعت ذلك بشكل صحيح ، إنه 10 مرات!

يجب أن تعلم أنه مع شعبية النماذج الكبيرة مثل chatgpt ، زادت قدرة "القراءة" من الذكاء الاصطناعى ، ولا توجد مشكلة في معالجة مقالات طويلة قيمتها عشرات الآلاف من الكلمات. ومع ذلك ، في مواجهة المعلومات الضخمة ، فإن "دماغ" النماذج الكبيرة التقليدية عالقة بعض الشيء - على الرغم من أن بنية المحولات قوية ، فإن آلية الانتباه الأساسية لها مثل "الماسح الضوئي الفائق". كلما طالما النص ، التوسع الأسي لنطاق المسح ، وأبطأ السرعة.
من أجل حل مشكلة "عنق الزجاجة" هذه ، انضم العلماء من جامعة Tsinghua إلى العديد من المؤسسات البحثية وعمالقة التكنولوجيا لإيجاد نهج مختلف وإطلاق إطار APB. يكمن اللغز الأساسي لهذا الإطار في المزيج الذكي من "التسلسل الموازي + الانتباه المتناثر".

ببساطة ، يشبه إطار APB فريق "التعاون" الفعال. إنه "يرفض" نصًا طويلًا في قطع صغيرة ويخصصه لأعضاء فريق GPUS "لمعالجته" لمعالجته بالتوازي. الأمر الأكثر إثارة للدهشة هو أن APB يزود أيضًا بكل "عضو في الفريق" مع "ضغط ذاكرة التخزين المؤقت KV المحلية" ومهارات "التواصل المبسط" ، مما يسمح لهم بمشاركة المعلومات الرئيسية بكفاءة مع التعامل مع مهامهم وحل التبعيات الدلالية المعقدة بشكل مشترك في النصوص الطويلة.
الأمر الأكثر إثارة للدهشة هو أن إطار APB لا يتداول السرعة على حساب الأداء. على العكس من ذلك ، في اختبار النص 128K فائق الطول ، لم ترتفع APB فقط ، ولكن أدائها تجاوز اهتمام الفلاش التقليدي! حتى انتباه النجم ، الذي تروج له NVIDIA بقوة ، تم إزالته بواسطة APB ، مع زيادة السرعة البالغة 1.6 مرة ، مما يجعلها "ACE شاملة".
يتمثل التطبيق الأكثر مباشرة لهذه التقنية اختراق في تقصير وقت الاستجابة الرمزية الأولى للنماذج الكبيرة لمعالجة طلبات النص الطويلة. هذا يعني أنه عند مواجهة التعليمات الطويلة لـ "الانتشار" للمستخدمين بواسطة إطار APB في المستقبل ، يمكن للنموذج الكبير المجهز إطار APB أن يفهم على الفور ، والرد على الفور ، وتوديع تمامًا للانتظار الطويل لـ "التحميل ...".

لذا ، كيف يحقق إطار APB تأثيرًا سريعًا "غير Nature"؟
اتضح أن إطار عمل APB مدرك جيدًا لـ "نقاط الألم" لمعالجة النص الطويل - مبلغ الحساب. يتناسب كمية الحساب لآلية الانتباه التقليدية مع مربع طول النص ، والنص الطويل هو "الثقب الأسود" للحساب. من أجل اختراق عنق الزجاجة هذا ، أطلقت إطار APB اثنين من "حركات سحرية":
الخطوة الأولى: تحسين التوازي وجعل "النار عالية للجميع لالتقاط النار"
يستفيد APB Framework بالكامل من الحوسبة الموزعة لتوزيع مهام الحوسبة عبر وحدات معالجة الرسومات المتعددة ، تمامًا مثل "التعاون متعدد اللاعبين" ، مع الكفاءة الطبيعية. لا سيما فيما يتعلق بالتوازي التسلسلي ، يظهر إطار APB قابلية التوسع قوية للغاية ، ولا يقتصر على بنية النموذج ، ويمكن أن يتعامل بسهولة مع النص مهما كان الوقت.
الحيلة الثانية: تقليل الحسابات غير الصالحة واترك "فولاذ جيد استخدام على الشفرة"
يقدم APB Framework آلية انتباه متناثرة ، والتي لا "الاستيلاء على الحواجب واللحية مرة واحدة" ، ولكن "بشكل انتقائي" لحساب الانتباه. يشبه الخبير مع "Fire Eyes" الذي يركز فقط على المعلومات الرئيسية في النص ويتجاهل الأجزاء غير ذات الصلة ، وبالتالي تقليل كمية الحسابات بشكل كبير.
ومع ذلك ، فإن الحيلتين من "الموازي" و "متناثرة" تبدو بسيطة ، ولكن في الواقع "تخفي الألغاز". كيفية تحقيق حساب انتباه متناثر فعال في إطار التسلسل الموازي؟ هذا هو "النواة الصلبة" الحقيقية لإطار APB.
يجب أن تعلم أنه في بيئة متوازية متتابعة ، يكون لكل وحدة معالجة الرسومات فقط جزء من معلومات النص. إذا كنت ترغب في تحقيق "تصور عالمي" ، فهو مثل "رجل أعمى يلمس فيل" ، ويمكن تخيل الصعوبة. لقد ضحت الطرق السابقة مثل انتباه النجوم و APE الأداء أو كانت محدودة في السيناريوهات المعمول بها ، والتي فشلت في حل هذه المشكلة بشكل مثالي.
يتجنب إطار APB بذكاء "حفرة" "التواصل على نطاق واسع" ويتخذ نهجًا مختلفًا لبناء آلية انتباه متناثرة منخفضة التواصل لسيناريوهات متوازية تسلسل. تشمل المكونات الأساسية لهذه الآلية:
كتلة مرساة أصغر: تشبه كتلة المرساة "الملاح" الذي يوجه آلية الانتباه للتركيز على المعلومات الرئيسية. يقلل إطار APB بشكل مبتكر من حجم كتلة المرساة ، مما يجعله أخف وزناً وأكثر مرونة ويقلل من الحوسبة.
كتلة المرور الأصلية: تمرير الكتلة هو مكون "الروح" في إطار APB ، والذي يحل بذكاء مشكلة الاعتماد الدلالي لمسافات طويلة. من خلال "ضغط وتعبئة" المعلومات الرئيسية التي تتم معالجتها بواسطة وحدة معالجة الرسومات المسبقة ونقلها إلى وحدة معالجة الرسومات اللاحقة ، يمكن لكل "عضو في الفريق" "عرض الموقف العام" وفهم سياق "السياق" للنص الطويل.
ضغط السياق على دراية بالاستعلام: يقدم إطار APB أيضًا آلية "مدركة للاستعلام" ، مما يسمح لضاغط السياق "بفهم المشكلة" ، وتصفية المعلومات الرئيسية والاحتفاظ بها المتعلقة بالاستعلام بشكل أكثر دقة ، وزيادة تحسين الكفاءة والدقة.
استنادًا إلى "المهارات الفريدة" أعلاه ، قام إطار APB ببناء عملية تفكير سلسة ومعقولة:
تجزئة السياق: قم بتوزيع النص الطويل بالتساوي على كل وحدة معالجة الرسومات ، وقم بتوزيع كتلة مرساة في بداية "دفن" المشكلة.
ضغط السياق: استخدم رأس الاستبقاء الذي تم تقديمه بواسطة Locret لأداء "ضغط ذكي" من ذاكرة التخزين المؤقت KV.
التواصل الفعال: من خلال مشغل Allgather ، يتم "تمرير" ذاكرة التخزين المؤقت KV المضغوطة إلى وحدة معالجة الرسومات اللاحقة لبناء كتلة عابرة.
الحساب السريع: استخدم نواة اهتمام فلاش مصنوعة خصيصًا ، وقم بإجراء حسابات فعالة مع قناع اهتمام محسّن. تمرير كتلة "Retirescue" بعد اكتمال الحساب ولا يشارك في الحسابات اللاحقة.
توضح النتائج التجريبية ببلاغة الأداء الممتاز لإطار APB. في اختبارات مثل LLAMA-3.1-8B-instruct ، QWEN-2.5-14B-instruct ، YI-34B-200K والمعايير المتعددة مثل InfiniteBench وحاكم ، تجاوز إطار APB الحشد ، وحقق أفضل توازن بين الأداء والسرعة.
تجدر الإشارة بشكل خاص إلى أنه مع زيادة طول النص ، تصبح ميزة سرعة أطر APB أكثر وضوحًا ، وهي تدرك حقًا التأثير المعجزة "الحصول على أسرع وأسرع". الغموض وراء ذلك هو أن إطار APB أقل حسابيًا بكثير من الطرق الأخرى ، وتتوسع الفجوة مع زيادة طول النص.
يوضح التحليل الأكثر تعمقًا للدموع في وقت ما قبل التسلسل أن تكنولوجيا التسلسل التوازي نفسها يمكن أن تقلل بشكل كبير من وقت حساب الاهتمام و FFN (الشبكة العصبية العذراء). آلية الانتباه المتفرقة لإطار APB تضغط على وقت حساب الانتباه إلى أقصى الحدود. بالمقارنة مع انتباه النجوم ، يستخدم إطار APB بذكاء كتلة المرور لتمرير التبعيات الدلالية لمسافات طويلة ، مما يقلل بشكل كبير من حجم كتلة المرساة ، مما يقلل بشكل فعال من النفقات العامة الإضافية لـ FFN ، وتحقيق التأثير المثالي لـ "كل من السمكة والدب".
الأمر الأكثر إثارة هو أن إطار عمل APB يوضح توافقًا ممتازًا ، ويمكنه التكيف بمرونة مع البيئات المختلفة الموزعة ومقاييس النماذج ، ويمكن أن يحافظ على أداء عالي وكفاءة عالية "مستقر مثل صخرة" في ظل ظروف مختلفة "صلبة".
يمكن توقع أنه من خلال ظهور إطار APB ، سيتم كسر "عنق الزجاجة" من التفكير النصسي الطويل على نطاق واسع تمامًا ، وسيتم توسيع مساحة الخيال لتطبيقات الذكاء الاصطناعي. في المستقبل ، سواء كانت خدمة العملاء الذكية ، والتحليل المالي ، والبحث العلمي والاستكشاف ، وإنشاء المحتوى ، سندخل في عصر جديد من الذكاء الاصطناعى "أسرع وأقوى وأكثر ذكاءً"!
عنوان المشروع: https://github.com/thunlp/apb
عنوان الورق: https://arxiv.org/pdf/2502.12085