近期,人工智能領域的基準測試成為了公眾關注的焦點。 OpenAI的一名員工公開指責馬斯克創立的AI公司xAI,稱其在發布Grok3的基準測試結果時存在誤導性行為。而xAI的聯合創始人伊戈爾・巴布申金則對此予以否認,堅稱公司的測試結果沒有問題。
這場爭議的導火索是xAI在其官方博客上發布的一張圖表,展示了Grok3在AIME2025測試中的表現。 AIME2025是一項基於數學邀請賽的測試,包含了一系列高難度的數學問題。儘管部分專家對AIME作為AI基準測試的有效性提出質疑,但它仍被廣泛用於評估AI模型的數學能力。
根據xAI發布的圖表,Grok3的兩個版本——Grok3Reasoning Beta和Grok3mini Reasoning在AIME2025測試中的表現優於OpenAI當前的最佳模型o3-mini-high。然而,OpenAI的員工迅速指出,xAI的圖表中並未包含o3-mini-high在AIME2025測試中以“cons@64”方式計算的分數,這一遺漏可能對結果產生了誤導。

那麼,“cons@64”究竟是什麼呢?它是“consensus@64”的縮寫,指的是讓模型對每個問題進行64次嘗試,並選擇出現頻率最高的答案作為最終答案。這種評分機制能夠顯著提升模型的基準測試分數。因此,如果圖表中未包含這一數據,可能會讓人誤以為某個模型的表現優於另一個模型,而實際情況可能並非如此。
事實上,Grok3Reasoning Beta和Grok3mini Reasoning在AIME2025測試中的“@1”分數(即模型首次嘗試的分數)低於OpenAI的o3-mini-high。此外,Grok3Reasoning Beta的表現也略遜於OpenAI的o1模型。儘管如此,xAI仍然將Grok3宣傳為“世界上最聰明的AI”,這進一步加劇了雙方的爭議。
巴布申金在社交媒體上回應稱,OpenAI過去也曾發布過類似的誤導性基準測試圖表,主要用來對比其自身模型的表現。與此同時,一位中立的專家將各模型的表現整理成一張更為“準確”的圖表,引發了更廣泛的討論。

此外,AI研究者納森・蘭伯特指出,當前AI基準測試中一個更為重要的指標仍然不明朗,那就是各模型取得最佳分數所需的計算成本和財務成本。這一問題的存在表明,現有的AI基準測試在傳達模型的局限性和優勢方面仍然存在不足。
總結來說,xAI與OpenAI之間關於Grok3基準測試結果的爭議引發了廣泛關注。 xAI的圖表中未包含OpenAI模型的關鍵評分指標“cons@64”,可能導致公眾對模型表現的誤解。與此同時,AI模型表現背後的計算和財務成本仍然是一個未解之謎,這進一步凸顯了當前AI基準測試的局限性。