في الآونة الأخيرة ، أصبح القياس في مجال الذكاء الاصطناعي محور اهتمام الجمهور. اتهم موظف Openai علنًا Xai ، وهي شركة منظمة العفو الدولية التي أسسها Musk ، بسلوك مضلل عندما أصدرت نتائج اختبار Grok3 القياسي. نفى المؤسس المشارك لـ XAI Igor Babushenjin ذلك ، وأصر على أن نتائج اختبار الشركة لم تكن مشكلة.
كان فتيل هذا الجدل هو رسم بياني نشره XAI على مدونتها الرسمية التي تبين كيف أجري Grok3 في اختبار AIME2025. AIME2025 هو اختبار يعتمد على مسابقة دعوة الرياضيات ، والتي تحتوي على سلسلة من مشاكل الرياضيات الصعبة. على الرغم من أن بعض الخبراء يشككون في فعالية AIME كمعيار لمنظمة العفو الدولية ، إلا أنه لا يزال يستخدم على نطاق واسع لتقييم القدرات الرياضية لنماذج الذكاء الاصطناعى.
وفقًا للرسم البياني الصادر عن XAI ، فإن الإصدارين من Grok3-Grok3Reasoning Beta و Grok3Mini المنطق ، كانا أفضل من أفضل طراز Openai الحالي O3-Mini في اختبار AIME2025. ومع ذلك ، أشار موظفو Openai بسرعة إلى أن مخطط XAI لا يحتوي على الدرجات التي يحسبها O3-Mini في اختبار AIME2025 بطريقة "Cons@64" ، وقد يكون هذا الإغفال مضللاً النتائج.

إذن ، ما هو بالضبط "سلبيات@64"؟ إنه اختصار "الإجماع@64" ، مما يعني وجود النموذج جرب 64 مرة في كل سؤال وحدد الإجابة التي تظهر بشكل متكرر كإجابة نهائية. يمكن أن تحسن آلية التسجيل هذه بشكل كبير من النتيجة القياسية للنموذج. لذلك ، إذا لم يتم تضمين هذه البيانات في المخطط ، فقد يكون من الخطأ أن يؤدي نموذج واحد أفضل من الآخر ، وقد لا يكون هذا هو الحال.
في الواقع ، فإن النتيجة "@1" (أي درجة المحاولة الأولى للنموذج) في اختبار AIME2025 أقل من OPH-MINI-High Openai. بالإضافة إلى ذلك ، فإن أداء Grok3Reasoning Beta هو أيضًا أدنى قليلاً من طراز O1 من Openai. على الرغم من ذلك ، لا يزال Xai يروج لـ Grok3 كـ "أذكى الذكاء الاصطناعي في العالم" ، مما يزيد من تفاقم الجدل بين الجانبين.
ورد Babushenjin على وسائل التواصل الاجتماعي أن Openai نشرت مخططات مرجعية مماثلة في الماضي ، تستخدم بشكل أساسي لمقارنة أداء نماذجها الخاصة. وفي الوقت نفسه ، نظم خبير محايد أداء كل نموذج في مخطط "أكثر دقة" ، مما أثار مناقشة أوسع.

بالإضافة إلى ذلك ، أشار باحث الذكاء الاصطناعي ناثان لامبرت إلى أن مؤشرًا أكثر أهمية في معيار الذكاء الاصطناعى الحالي لا يزال غير واضح ، أي التكاليف الحسابية والمالية المطلوبة لكل نموذج للحصول على أفضل درجة. يشير وجود هذه المشكلة إلى أن معايير الذكاء الاصطناعى الحالية لا تزال لديها أوجه القصور في توصيل القيود والمزايا للنموذج.
باختصار ، اجتذب الجدل حول نتائج Grok3 القياسية بين XAI و Openai انتباهًا واسعًا. لا يحتوي مخطط XAI على مؤشر التسجيل الرئيسي "Cons@64" من نموذج Openai ، والذي قد يؤدي إلى سوء فهم عام حول أداء النموذج. وفي الوقت نفسه ، تظل التكاليف الحسابية والمالية وراء أداء نماذج الذكاء الاصطناعى لغزًا لم يتم حلها ، مما يبرز بشكل أكبر القيود المفروضة على معايير الذكاء الاصطناعى الحالية.