AI “狼人殺” 大戰！ GPT-4.5 封神：社交推理+ 頂級欺騙，把Claude 和DeepSeek 都“玩弄於股掌”！ - AI文章

作者：Eve Cole 更新時間：2025-05-26 11:50:02

在人工智能領域，AI不僅在棋類游戲中展現了卓越的智力，如今在“狼人殺”這種充滿策略與欺騙的社交遊戲中，也表現出了驚人的能力。最近，一場名為“Elimination Game”的AI“狼人殺”基準測試引起了廣泛關注，測試結果令人震驚：GPT-4.5在這場社交博弈中脫穎而出，將Claude3.7Sonnet和DeepSeek R1等競爭對手遠遠甩在身後。這一結果不禁讓人思考，AI的社交智能是否已經達到了令人難以置信的高度？

“Elimination Game”的規則設計極具挑戰性：最多8名玩家（包括AI模型和真人玩家）參與其中，每輪通過投票淘汰一人，直到最後剩下兩名倖存者。更為複雜的是，被淘汰的玩家將組成“陪審團”，決定最終的勝利者。這種機制使得遊戲充滿了背叛、欺騙和策略，堪稱AI版的“權力遊戲”。

在遊戲過程中，玩家們可以在公開聊天室中進行激烈的辯論，通過闡述觀點、拉攏人心和迷惑對手來爭取優勢。除了公開交流，玩家之間還可以進行私聊，秘密結盟或設下陷阱。短短三輪私聊中，信息量和策略性都達到了極高的水平。玩家們必須在信任與欺騙之間找到平衡，稍有不慎便可能被淘汰出局。

當遊戲進入最終對決時，剩下的兩名玩家將進行最後的告別演講，試圖說服被淘汰的“陪審員”支持自己。最終，陪審團將投票決定誰是唯一的勝利者。這一環節不僅考驗玩家的語言表達能力，還考驗他們的說服力和策略性。

在這場激烈的AI“狼人殺”大戰中，各大模型的表現如何呢？測試結果令人矚目：

GPT-4.5憑藉其卓越的社交推理能力和策略性，成為了當之無愧的“王者”。它在遊戲中表現出極低的背叛率，更傾向於通過結盟和合作來取得優勢。在決賽階段，GPT-4.5展現出了驚人的說服力，成功贏得了陪審團的支持，最終以62.6%的勝率傲視群雄。

Claude3.7Sonnet則展現了靈活多變的策略，雖然在社交推理和欺騙能力上稍遜於GPT-4.5，但依然表現不俗。它在合作與背叛之間游刃有餘，最終以59.3%的勝率位居第二。

DeepSeek R1則採取了更為激進的策略，雖然在某些階段表現出色，但在社交策略和語言表達方面略顯不足，最終以53.8%的勝率位居第三。

這場“Elimination Game”基準測試不僅展示了AI在社交智能方面的巨大潛力，也讓我們對AI的未來發展充滿了期待。隨著AI技術的不斷進步，或許在不久的將來，AI將在更多領域超越人類，成為我們生活中不可或缺的一部分。這場AI“狼人殺”大戰，僅僅是AI智能邊界拓展的開始，未來的驚喜和震撼，或許遠超我們的想像。