Récemment, l'analyse comparative dans le domaine de l'intelligence artificielle est devenue l'attention de l'attention du public. Un employé d'OpenAI a accusé publiquement XAI, une entreprise d'IA fondée par Musk, de comportement trompeur lorsqu'il a publié les résultats du test de référence de Grok3. Le co-fondateur de XAI, Igor Babushenjin, a nié cela, insistant sur le fait que les résultats des tests de l'entreprise n'étaient pas problématiques.
Le fusible de cette controverse était un graphique publié par XAI sur son blog officiel montrant comment Grok3 a fonctionné dans le test AIME2025. AIME2025 est un test basé sur le concours d'invitation des mathématiques, qui contient une série de problèmes mathématiques difficiles. Bien que certains experts remettent en question l'efficacité de l'AIME en tant que référence en IA, il est toujours largement utilisé pour évaluer les capacités mathématiques des modèles d'IA.
Selon le graphique publié par XAI, les deux versions de Grok3 - Grok3reasoning Beta et Grok3mini Raisonnement, ont mieux performé que le meilleur modèle actuel d'Openai O3-MinI-High dans le test AIME2025. Cependant, les employés d'OpenAI ont rapidement souligné que le graphique XAI ne contient pas les scores calculés par O3-MinI-High dans le test AIME2025 dans la méthode "CONS @ 64", et cette omission peut tromper les résultats.

Alors, qu'est-ce que "CONS @ 64"? Il s'agit de l'abréviation de "consensus @ 64", ce qui signifie que le modèle essaie 64 fois sur chaque question et sélectionnez la réponse qui apparaît le plus souvent comme la réponse finale. Ce mécanisme de notation peut améliorer considérablement le score de référence du modèle. Par conséquent, si ces données ne sont pas incluses dans le graphique, il peut être confondu avec un modèle pour mieux fonctionner qu'une autre, et cela peut ne pas être le cas.
En fait, le score "@ 1" (c'est-à-dire le score de la première tentative du modèle) dans le test AIME2025 est inférieur à l'O3-MinI de l'OpenAI. De plus, la performance de la version bêta de Grok3Reason est également légèrement inférieure au modèle O1 d'Openai. Malgré cela, Xai promeut toujours Grok3 comme "l'IA la plus intelligente du monde", ce qui aggrave encore la controverse entre les deux parties.
Babushenjin a répondu sur les réseaux sociaux qu'Openai a publié dans le passé Openai similaires, principalement utilisés pour comparer les performances de ses propres modèles. Pendant ce temps, un expert neutre a organisé les performances de chaque modèle en un graphique plus «précis», provoquant une discussion plus large.

De plus, le chercheur d'IA, Nathan Lambert, a souligné qu'un indicateur plus important dans la référence actuelle de l'IA n'est pas encore clair, c'est-à-dire les coûts de calcul et financiers requis pour chaque modèle pour obtenir le meilleur score. L'existence de ce problème suggère que les repères d'IA existants ont encore des lacunes dans la communication des limitations et des avantages du modèle.
En résumé, la controverse sur les résultats de référence Grok3 entre XAI et OpenAI a attiré une attention généralisée. Le graphique XAI ne contient pas l'indicateur de notation clé "CONS @ 64" du modèle OpenAI, ce qui peut conduire à des malentendus publics sur les performances du modèle. Pendant ce temps, les coûts de calcul et financiers derrière les performances des modèles d'IA restent un mystère non résolu, soulignant davantage les limites des repères actuels de l'IA.