最近、人工知能の分野でのベンチマークが国民の注目を集めています。 Openaiの従業員は、GROK3のベンチマークテストの結果を発表したときに、Muskによって設立されたAI会社であるAI会社であるAI会社であるAI会社を誤解を招く行動を非難しました。 Xaiの共同設立者であるIgor Babushenjinはこれを否定し、同社のテスト結果には問題はないと主張しました。
この論争のヒューズは、Xaiが公式ブログに投稿したグラフで、AIME2025テストでGROK3がどのように機能したかを示しています。 AIME2025は、数学の招待競争に基づいたテストであり、一連の困難な数学の問題を含んでいます。一部の専門家は、AIIMEのAIベンチマークとしての有効性を疑問視していますが、AIモデルの数学的能力を評価するために依然として広く使用されています。
Xaiがリリースしたチャートによると、GROK3の2つのバージョンであるGROK3-REASONING BETAとGROK3MINI Reasoningは、AIME2025テストでOpenaiの現在のベストモデルO3-Mini-Highよりも優れたパフォーマンスを発揮しました。しかし、Openaiの従業員は、Xaiチャートには「Cons@64」メソッドのAIME2025テストでO3-Mini-Highによって計算されたスコアが含まれていないことをすぐに指摘しました。この省略は結果を誤解させている可能性があります。

それで、「Cons@64」と正確には何ですか?これは「コンセンサス@64」の略語です。つまり、モデルに各質問で64回試してみて、最終回答として最も頻繁に表示される答えを選択します。このスコアリングメカニズムは、モデルのベンチマークスコアを大幅に改善できます。したがって、このデータがチャートに含まれていない場合、あるモデルが別のモデルよりも優れたパフォーマンスを発揮するために間違っている可能性があり、そうではない可能性があります。
実際、AIME2025テストの「@1」スコア(つまり、モデルの最初の試みのスコア)は、OpenaiのO3-mini-highよりも低くなっています。さらに、GROK3Reasoning Betaのパフォーマンスも、OpenaiのO1モデルよりもわずかに劣っています。それにもかかわらず、Xaiは依然としてGROK3を「世界で最も賢いAI」として宣伝しており、それはさらに両者間の論争を悪化させています。
Babushenjinは、Openaiが過去に同様の誤解を招くベンチマークチャートを公開しており、主に独自のモデルのパフォーマンスを比較するために使用されているというソーシャルメディアで応答しました。一方、中立の専門家が各モデルのパフォーマンスをより「正確な」チャートに編成し、より広い議論を引き起こしました。

さらに、AIの研究者であるネイサン・ランバートは、現在のAIベンチマークのより重要な指標はまだ不明であること、つまり各モデルに最高のスコアを得るために必要な計算および財務コストがまだ不明であると指摘しました。この問題の存在は、既存のAIベンチマークには、モデルの制限と利点を伝える際にまだ欠点があることを示唆しています。
要約すると、XaiとOpenaiの間のGROK3ベンチマークの結果に関する論争は、広範囲にわたる注目を集めています。 Xaiチャートには、Openaiモデルのキースコアリングインジケーター「Cons@64」は含まれていません。これは、モデルのパフォーマンスに関する一般の誤解につながる可能性があります。一方、AIモデルのパフォーマンスの背後にある計算および財務コストは未解決の謎のままであり、現在のAIベンチマークの制限をさらに強調しています。