最近、Doubao Big ModelチームとMAP Open Source Communityは、285の大学院レベルの分野と26,529の専門的な質問をカバーする知識推論ベンチマークテストであるSuperGPQAを共同でリリースしました。この革新的なデータセットは、数学や物理学などの主流の分野をカバーするだけでなく、光産業、農業、サービス科学などの長期尾の分野も初めて評価システムに含め、既存のベンチマークテストのギャップを埋めます。
SuperGPQAの発売は、AIの分野で重要なマイルストーンを示しています。このデータセットは、権威あるソースからの問題をスクリーニングするために、専門家とLMコラボレーションメカニズムを通じて半年にわたって構築されました。その質問は平均9.67オプションを提供し、それらの42.33%が数学的計算または正式な推論(幅と深さの両方)が必要です。実験は、最適モデルの精度DeepSeek-R1がわずか61.82%であることを示しており、現在の大規模な言語モデルにはまだ多様な知識分野の改善の余地があることを示しています。
MMLUやGPQAなどの従来のベンチマークは50の分野未満をカバーしていますが、ロングテールの分野は5%未満を占めています。単一のデータソース(Wikipediaなど)と信頼できないクラウドソーシング注釈のため、複雑なシナリオでモデルの推論能力を測定することは困難です。 SuperGPQAは、3段階のプロセスを通じて品質を向上させます。元の問題の専門家スクリーニング、標準化された転写、多層品質検査(ルールフィルタリング、LLMテスト、エキスパートレビュー)。評価の結果は、DeepSeek-V3スコアなどの微調整がパフォーマンスを大幅に改善することを示していますが、オープンソースモデルは困難な問題で閉じたソースソリューションに遅れをとっています。
SuperGPQAは、オープンソースとクローズドソースモデルの間のパフォーマンスギャップを明らかにするために使用されており、AIの開発のための重要なツールになっています。このベンチマークテストのリリースは、AI研究の新しい評価基準を提供するだけでなく、将来のモデルの最適化と知識推論能力の改善の方向性も指摘しています。
紙リンク: https://arxiv.org/pdf/2502.14739