Récemment, l'équipe ByTedance Doubao Big Model et la communauté open source MAP ont publié conjointement SuperGPQA, un test de référence de connaissances sur les connaissances couvrant 285 disciplines de niveau supérieur et 26 529 questions professionnelles. Cet ensemble de données innovant couvre non seulement les disciplines traditionnelles telles que les mathématiques et la physique, mais comprend également des disciplines à longue queue telles que l'industrie légère, l'agriculture et les sciences des services dans le système d'évaluation pour la première fois, pour combler l'écart dans les tests de référence existants dans le domaine des connaissances à longue queue.
Le lancement de SuperGPQA marque une étape importante dans le domaine de l'IA. Cet ensemble de données a été construit dans un demi-année par le biais du mécanisme de collaboration Expert-LLM pour filtrer les problèmes provenant de sources faisant autorité. Ses questions offrent en moyenne 9,67 options, et 42,33% d'entre elles nécessitent des calculs mathématiques ou un raisonnement formel, à la fois largement et profondeur. Les expériences montrent que la précision du modèle optimal Deepseek-R1 n'est que de 61,82%, ce qui indique que le modèle actuel de grande langue a toujours une amélioration des divers domaines de connaissances.
Les références traditionnelles telles que MMLU et GPQA couvrent moins de 50 disciplines, tandis que les disciplines à longue queue représentent moins de 5%. En raison de la source de données unique (comme Wikipedia) et de l'annotation de crowdsourcing peu fiable, il est difficile de mesurer la capacité d'inférence du modèle dans des scénarios complexes. SuperGPQA améliore la qualité par le biais de processus en trois étapes: dépistage d'experts des problèmes d'origine, transcription standardisée, inspection de la qualité multicouche (filtrage des règles, test LLM, revue d'experts). Les résultats de l'évaluation montrent que les instructions sur les instructions améliorent considérablement les performances, telles que les scores Deepseek-V3 dépassent la version de base, mais le modèle open source est toujours à l'origine des solutions à source fermée en problèmes difficiles.
SuperGPQA a été utilisé pour révéler l'écart de performance entre les modèles open source et les modèles à source fermée et est devenu un outil important pour le développement de l'IA. La publication de ce test de référence fournit non seulement de nouvelles normes d'évaluation pour la recherche sur l'IA, mais souligne également la direction de l'optimisation future du modèle et de l'amélioration des capacités de raisonnement des connaissances.
Lien papier: https://arxiv.org/pdf/2502.14739
Lien de données: https://huggingface.co/datasets/map/supergpqa
Lien de code: https://github.com/supergpqa/supergpqa