في الآونة الأخيرة ، أصدر فريق Bytedance Doubao Big Model و Map Open Source Community SuperGPQA المشترك ، وهو اختبار معياري للمعرفة الذي يغطي 285 تخصصًا على مستوى الدراسات العليا و 26،529 سؤالًا مهنيًا. لا تغطي مجموعة البيانات المبتكرة هذه التخصصات السائدة مثل الرياضيات والفيزياء ، ولكن أيضًا تشمل التخصصات الطويلة مثل صناعة الضوء والزراعة وعلوم الخدمة في نظام التقييم لأول مرة ، وملء الفجوة في الاختبارات القياسية الحالية في مجال المعرفة الطويلة.
إن إطلاق SuperGPQA يمثل علامة فارقة مهمة في مجال الذكاء الاصطناعي. تم بناء مجموعة البيانات هذه في نصف عام من خلال آلية التعاون الخبراء لعلم المشاكل من مصادر موثوقة. توفر أسئلتها في المتوسط 9.67 خيارات ، و 42.33 ٪ منها تتطلب حسابات رياضية أو التفكير الرسمي ، كل من الاتساع والعمق. تُظهر التجارب أن دقة النموذج الأمثل Deepseek-R1 هي 61.82 ٪ فقط ، مما يشير إلى أن نموذج اللغة الكبير الحالي لا يزال لديه مجال للتحسين في مجالات المعرفة المتنوعة.
تغطي المعايير التقليدية مثل MMLU و GPQA أقل من 50 تخصصًا ، في حين تمثل تخصصات ذيل الطويل أقل من 5 ٪. نظرًا لمصدر البيانات الفردي (مثل ويكيبيديا) وشرح التعهيد الجماعي غير الموثوق به ، من الصعب قياس قدرة الاستدلال للنموذج في السيناريوهات المعقدة. يعمل SuperGPQA على تحسين الجودة من خلال عمليات ثلاث مراحل: فحص الخبراء للمشكلات الأصلية ، والنسخ الموحد ، وفحص جودة الطبقات متعددة الطبقات (مرشح القاعدة ، اختبار LLM ، مراجعة الخبراء). تُظهر نتائج التقييم أن صقل التعليمات بشكل كبير يحسن الأداء بشكل كبير ، مثل درجات DeepSeek-V3 يتجاوز الإصدار الأساسي ، لكن نموذج المصدر المفتوح لا يزال متخلفًا عن حلول المصدر المغلقة في القضايا الصعبة.
تم استخدام SuperGPQA للكشف عن فجوة الأداء بين نماذج المصدر المفتوح ومصدر مغلق وأصبحت أداة مهمة لتطوير الذكاء الاصطناعي. لا يوفر إصدار هذا الاختبار القياسي معايير تقييم جديدة لأبحاث الذكاء الاصطناعي فحسب ، بل يشير أيضًا إلى اتجاه تحسين النموذج المستقبلي وتحسين قدرات التفكير المعرفة.
رابط الورق: https://arxiv.org/pdf/2502.14739
رابط البيانات: https://huggingface.co/Datasets/map/supergpqa
رابط الرمز: https://github.com/supergpqa/supergpqa