AI 大戰超級瑪麗！ Claude 3.7 封神：Gemini、GPT-4o 全軍覆沒，誰才是遊戲界真王者？ - AI文章

作者：Eve Cole 更新時間：2025-05-26 16:50:02

在遊戲界，誰才是真正的王者？近日，AI技術向經典遊戲《超級馬力歐兄弟》發起了挑戰，引發了廣泛關注。加州大學聖地亞哥分校的Hao人工智能實驗室發布了一項令人震驚的研究成果：在一場AI“馬力歐”大亂鬥中，Anthropic旗下的Claude3.7模型脫穎而出，擊敗了其他競爭對手，榮登“最強AI馬力歐”的寶座。緊隨其後的是Claude3.5，而谷歌的Gemini1.5Pro和OpenAI的GPT-4o則表現不佳，令人大跌眼鏡。這一結果引發了人們對AI技術的新思考。

這場AI“馬力歐”爭霸賽並非在傳統的紅白機上進行，而是在一個高科技模擬器中展開。研究人員開發了一個名為GamingAgent的框架，作為AI與遊戲世界之間的橋樑。在這個虛擬環境中，AI化身為“馬力歐”，通過接收系統的指令來操控遊戲。指令包括“前方有障礙！跳！”和“敵人來襲！躲！”等，簡潔明了但充滿挑戰。系統還會提供遊戲截圖，幫助AI更好地理解遊戲場景。更令人驚嘆的是，AI能夠實時編寫Python代碼，指揮“馬力歐”完成各種複雜的操作，展現出極高的技術水平。

然而，比賽結果卻出人意料。一些以推理能力著稱的AI模型，如OpenAI的o1，表現遠不如預期。究其原因，這些“推理大神”在實時遊戲中反應速度過慢，無法迅速做出決策。在《超級馬力歐兄弟》這種分秒必爭的遊戲中，幾秒鐘的延遲就可能導致失敗。因此，反應速度成為了決定勝負的關鍵因素。這一發現揭示了AI在實時任務中的局限性，也為未來的研究提供了新的方向。

儘管遊戲已成為AI競技的重要舞台，但一些專家對此持保留態度。他們認為，遊戲世界過於簡單和抽象，無法完全反映AI在真實世界中的能力。 AI可以在遊戲中不斷積累經驗，但這些經驗是否能夠轉化為實際應用，仍有待驗證。 OpenAI的研究科學家安德烈・卡帕西甚至提出了“評估危機”的質疑，引發了人們對AI技術評估標準的深入思考。

儘管存在質疑，AI在遊戲中的表現依然令人矚目。這場“馬力歐”爭霸賽不僅展示了AI技術的飛速發展，也為我們提供了一個窺探未來的窗口。誰能想到，曾經只能在棋盤上運籌帷幄的AI，如今也能在遊戲世界中大顯身手？或許在不久的將來，AI真的能夠超越人類玩家，成為遊戲界的真正王者。讓我們拭目以待，見證這一技術的未來發展。