近日,字節跳動豆包大模型團隊與MAP開源社區共同發布了SuperGPQA,這是一個覆蓋285個研究生級學科、包含26,529道專業問題的知識推理基準測試。這一創新性的數據集不僅涵蓋了數學、物理等主流學科,還首次將輕工業、農業、服務科學等長尾學科納入評估體系,填補了現有基準測試在長尾知識領域的空白。
SuperGPQA的發布標誌著AI領域的一個重要里程碑。該數據集通過專家-LLM協同機制,從權威來源篩選問題,歷時半年構建而成。其題目平均提供9.67個選項,42.33%的題目需要數學計算或形式推理,兼具廣度與深度。實驗顯示,最優模型DeepSeek-R1的準確率僅為61.82%,表明當前大語言模型在多樣知識領域仍有提升空間。
傳統基準如MMLU和GPQA學科覆蓋不足50個,長尾學科佔比不到5%,且因數據來源單一(如維基百科)和眾包標註不可靠,難以衡量模型在復雜場景中的推理能力。 SuperGPQA通過三階段流程提升質量:專家篩選原始問題、規範化轉錄、多層質量檢驗(規則過濾、LLM檢測、專家複審)。評測結果表明,指令微調顯著提升性能,如DeepSeek-V3得分超基礎版,但開源模型在困難題目上仍落後閉源方案。
SuperGPQA已被用於揭示開源與閉源模型的性能差距,成為AI發展的重要工具。這一基準測試的發布,不僅為AI研究提供了新的評估標準,也為未來的模型優化和知識推理能力的提升指明了方向。
論文鏈接: https://arxiv.org/pdf/2502.14739