OpenAI 员工公开质疑 xAI：Grok 3 基准测试结果存在误导 - AI文章

作者：Eve Cole 更新时间：2025-05-24 18:25:02

近期，人工智能领域的基准测试成为了公众关注的焦点。OpenAI的一名员工公开指责马斯克创立的AI公司xAI，称其在发布Grok3的基准测试结果时存在误导性行为。而xAI的联合创始人伊戈尔・巴布申金则对此予以否认，坚称公司的测试结果没有问题。

这场争议的导火索是xAI在其官方博客上发布的一张图表，展示了Grok3在AIME2025测试中的表现。AIME2025是一项基于数学邀请赛的测试，包含了一系列高难度的数学问题。尽管部分专家对AIME作为AI基准测试的有效性提出质疑，但它仍被广泛用于评估AI模型的数学能力。

根据xAI发布的图表，Grok3的两个版本——Grok3Reasoning Beta和Grok3mini Reasoning在AIME2025测试中的表现优于OpenAI当前的最佳模型o3-mini-high。然而，OpenAI的员工迅速指出，xAI的图表中并未包含o3-mini-high在AIME2025测试中以“cons@64”方式计算的分数，这一遗漏可能对结果产生了误导。

那么，“cons@64”究竟是什么呢？它是“consensus@64”的缩写，指的是让模型对每个问题进行64次尝试，并选择出现频率最高的答案作为最终答案。这种评分机制能够显著提升模型的基准测试分数。因此，如果图表中未包含这一数据，可能会让人误以为某个模型的表现优于另一个模型，而实际情况可能并非如此。

事实上，Grok3Reasoning Beta和Grok3mini Reasoning在AIME2025测试中的“@1”分数（即模型首次尝试的分数）低于OpenAI的o3-mini-high。此外，Grok3Reasoning Beta的表现也略逊于OpenAI的o1模型。尽管如此，xAI仍然将Grok3宣传为“世界上最聪明的AI”，这进一步加剧了双方的争议。

巴布申金在社交媒体上回应称，OpenAI过去也曾发布过类似的误导性基准测试图表，主要用来对比其自身模型的表现。与此同时，一位中立的专家将各模型的表现整理成一张更为“准确”的图表，引发了更广泛的讨论。

此外，AI研究者纳森・兰伯特指出，当前AI基准测试中一个更为重要的指标仍然不明朗，那就是各模型取得最佳分数所需的计算成本和财务成本。这一问题的存在表明，现有的AI基准测试在传达模型的局限性和优势方面仍然存在不足。

总结来说，xAI与OpenAI之间关于Grok3基准测试结果的争议引发了广泛关注。xAI的图表中未包含OpenAI模型的关键评分指标“cons@64”，可能导致公众对模型表现的误解。与此同时，AI模型表现背后的计算和财务成本仍然是一个未解之谜，这进一步凸显了当前AI基准测试的局限性。