تتطور نماذج اللغات الكبيرة (LLMs) ذات نوافذ السياق الطويلة جدًا بسرعة، وقد اجتذبت قدرتها على معالجة المعلومات اهتمامًا واسع النطاق. ومع ذلك، هناك تحديات في تقييم قدرة هذه النماذج على فهم واستخدام كميات كبيرة من المعلومات. قام الباحثون في Google DeepMind بتطوير معيار مايكل أنجلو لهذا الغرض، بهدف إجراء تقييم أعمق للقدرات الاستدلالية لماجستير القانون في السياق الطويل وتوفير التوجيهات لتحسين النماذج المستقبلية.
في الآونة الأخيرة، أصبحت نماذج اللغات الكبيرة (LLMs) ذات نوافذ السياق الطويلة جدًا موضوعًا ساخنًا للمناقشة. هذه النماذج قادرة على التعامل مع مئات الآلاف أو حتى الملايين من الرموز المميزة في موجه واحد، مما يفتح العديد من الإمكانيات الجديدة للمطورين. ومع ذلك، ما مدى قدرة طلاب LLM ذوي السياق الطويل على فهم واستخدام المعلومات الكبيرة الواردة لحل هذه المشكلة، أطلق الباحثون في Google DeepMind معيارًا جديدًا يسمى Michelangelo، مصممًا لتقييم قدرات دفع السياق الطويل. تظهر النتائج أنه على الرغم من أن النماذج الحديثة الحالية قد حققت بعض التقدم في استخراج المعلومات من كميات كبيرة من البيانات السياقية، إلا أنها لا تزال تواجه صعوبات في المهام التي تتطلب التفكير وفهم بنية البيانات. ومع ظهور ماجستير إدارة الأعمال الذي يتمتع بنوافذ سياقية طويلة، بدأ الباحثون يدركون أن هناك حاجة إلى معايير جديدة لتقييم قدرات هذه النماذج. تركز التقييمات الحالية في الغالب على مهام استرجاع المعلومات، مثل تقييمات "العثور على الإبر في أكوام القش"، أي البحث عن معلومات محددة في عدد كبير من السياقات. ومع ذلك، فإن الاسترجاع البسيط لا يعني فهم النموذج للسياق العام. ولمعالجة هذه المشكلات، اقترح مايكل أنجلو طريقة تقييم جديدة من خلال تحديد مهام معقدة تتطلب نماذج لأداء تفكير وتوليف أعمق عند معالجة النصوص الطويلة. على سبيل المثال، يحتوي إطار التقييم على مهام متعددة تتعلق بالبرمجة واللغة الطبيعية، ولا تختبر هذه المهام قدرة ذاكرة النموذج فحسب، بل تركز أيضًا على عمق فهمه ومعالجة المعلومات. في مهمة تقييم مايكل أنجلو، يحتاج النموذج إلى حل ثلاث مهام أساسية لتركيب المستندات الطويلة، وهي "القائمة المحتملة"، و"تحليل المرجع الأساسي متعدد الجولات" والعديد من سيناريوهات التطبيق الأخرى. لا تساعد هذه المهام في تقييم أداء النموذج على المستندات الطويلة فحسب، بل تكشف أيضًا عن عيوبه في الاستدلال والتركيب. الأول هو "القائمة المحتملة"، حيث يحتاج النموذج إلى معالجة قائمة طويلة من العمليات في قائمة بايثون، وتصفية البيانات غير ذات الصلة أو الزائدة عن الحاجة لتحديد الحالة النهائية للقائمة. العنصر الثاني هو "التحليل المرجعي متعدد المنعطفات"، حيث يحتاج النموذج إلى فهم بنية المحادثة وحل المشكلات المرجعية في المحادثات الطويلة. العنصر الثالث هو "لا أعرف". عند الإجابة على أسئلة متعددة الاختيارات، يحتاج النموذج إلى تحديد ما إذا كانت الإجابة مضمنة في السياق ويكون قادرًا على الإجابة بدقة على "لا أعرف". قام الباحثون بتقييم مايكل أنجلو مقابل عشرة من أفضل حاملي شهادات الماجستير، بما في ذلك إصدارات مختلفة من Gemini وGPT-4 وClaude، واختبروا النموذج في سياق ما يصل إلى مليون رمز مميز. يقدم نموذج Gemini أداءً أفضل على MRCR، ويحقق نموذج GPT أداءً جيدًا على القائمة الكامنة، ويحصل Claude3.5Sonnet على أعلى الدرجات على IDK.

وخلص محرر Downcodes إلى أن: ظهور معيار مايكل أنجلو يوفر منظورًا جديدًا لتقييم سياق طويل جدًا LLM، ويشير أيضًا إلى أوجه القصور في النماذج الحالية في قدرات التفكير المعقدة. في المستقبل، ستحتاج LLM الأكثر قوة إلى تحقيق اختراقات في قدرات التفكير للتعامل بشكل أفضل مع المهام الأكثر تعقيدًا وسيناريوهات التطبيق. نحن نتطلع إلى الأبحاث المستقبلية التي تجلب لنا المزيد من المفاجآت!