AI 大战超级玛丽！Claude 3.7 封神：Gemini、GPT-4o 全军覆没，谁才是游戏界真王者？ - AI文章

作者：Eve Cole 更新时间：2025-05-26 16:50:02

在游戏界，谁才是真正的王者？近日，AI技术向经典游戏《超级马力欧兄弟》发起了挑战，引发了广泛关注。加州大学圣地亚哥分校的Hao人工智能实验室发布了一项令人震惊的研究成果：在一场AI“马力欧”大乱斗中，Anthropic旗下的Claude3.7模型脱颖而出，击败了其他竞争对手，荣登“最强AI马力欧”的宝座。紧随其后的是Claude3.5，而谷歌的Gemini1.5Pro和OpenAI的GPT-4o则表现不佳，令人大跌眼镜。这一结果引发了人们对AI技术的新思考。

这场AI“马力欧”争霸赛并非在传统的红白机上进行，而是在一个高科技模拟器中展开。研究人员开发了一个名为GamingAgent的框架，作为AI与游戏世界之间的桥梁。在这个虚拟环境中，AI化身为“马力欧”，通过接收系统的指令来操控游戏。指令包括“前方有障碍！跳！”和“敌人来袭！躲！”等，简洁明了但充满挑战。系统还会提供游戏截图，帮助AI更好地理解游戏场景。更令人惊叹的是，AI能够实时编写Python代码，指挥“马力欧”完成各种复杂的操作，展现出极高的技术水平。

然而，比赛结果却出人意料。一些以推理能力著称的AI模型，如OpenAI的o1，表现远不如预期。究其原因，这些“推理大神”在实时游戏中反应速度过慢，无法迅速做出决策。在《超级马力欧兄弟》这种分秒必争的游戏中，几秒钟的延迟就可能导致失败。因此，反应速度成为了决定胜负的关键因素。这一发现揭示了AI在实时任务中的局限性，也为未来的研究提供了新的方向。

尽管游戏已成为AI竞技的重要舞台，但一些专家对此持保留态度。他们认为，游戏世界过于简单和抽象，无法完全反映AI在真实世界中的能力。AI可以在游戏中不断积累经验，但这些经验是否能够转化为实际应用，仍有待验证。OpenAI的研究科学家安德烈・卡帕西甚至提出了“评估危机”的质疑，引发了人们对AI技术评估标准的深入思考。

尽管存在质疑，AI在游戏中的表现依然令人瞩目。这场“马力欧”争霸赛不仅展示了AI技术的飞速发展，也为我们提供了一个窥探未来的窗口。谁能想到，曾经只能在棋盘上运筹帷幄的AI，如今也能在游戏世界中大显身手？或许在不久的将来，AI真的能够超越人类玩家，成为游戏界的真正王者。让我们拭目以待，见证这一技术的未来发展。