在人工智能領域,AI不僅在棋類游戲中展現了卓越的智力,如今在“狼人殺”這種充滿策略與欺騙的社交遊戲中,也表現出了驚人的能力。最近,一場名為“Elimination Game”的AI“狼人殺”基準測試引起了廣泛關注,測試結果令人震驚:GPT-4.5在這場社交博弈中脫穎而出,將Claude3.7Sonnet和DeepSeek R1等競爭對手遠遠甩在身後。這一結果不禁讓人思考,AI的社交智能是否已經達到了令人難以置信的高度?
“Elimination Game”的規則設計極具挑戰性:最多8名玩家(包括AI模型和真人玩家)參與其中,每輪通過投票淘汰一人,直到最後剩下兩名倖存者。更為複雜的是,被淘汰的玩家將組成“陪審團”,決定最終的勝利者。這種機制使得遊戲充滿了背叛、欺騙和策略,堪稱AI版的“權力遊戲”。

在遊戲過程中,玩家們可以在公開聊天室中進行激烈的辯論,通過闡述觀點、拉攏人心和迷惑對手來爭取優勢。除了公開交流,玩家之間還可以進行私聊,秘密結盟或設下陷阱。短短三輪私聊中,信息量和策略性都達到了極高的水平。玩家們必須在信任與欺騙之間找到平衡,稍有不慎便可能被淘汰出局。
當遊戲進入最終對決時,剩下的兩名玩家將進行最後的告別演講,試圖說服被淘汰的“陪審員”支持自己。最終,陪審團將投票決定誰是唯一的勝利者。這一環節不僅考驗玩家的語言表達能力,還考驗他們的說服力和策略性。

在這場激烈的AI“狼人殺”大戰中,各大模型的表現如何呢?測試結果令人矚目:
GPT-4.5憑藉其卓越的社交推理能力和策略性,成為了當之無愧的“王者”。它在遊戲中表現出極低的背叛率,更傾向於通過結盟和合作來取得優勢。在決賽階段,GPT-4.5展現出了驚人的說服力,成功贏得了陪審團的支持,最終以62.6%的勝率傲視群雄。
Claude3.7Sonnet則展現了靈活多變的策略,雖然在社交推理和欺騙能力上稍遜於GPT-4.5,但依然表現不俗。它在合作與背叛之間游刃有餘,最終以59.3%的勝率位居第二。
DeepSeek R1則採取了更為激進的策略,雖然在某些階段表現出色,但在社交策略和語言表達方面略顯不足,最終以53.8%的勝率位居第三。
這場“Elimination Game”基準測試不僅展示了AI在社交智能方面的巨大潛力,也讓我們對AI的未來發展充滿了期待。隨著AI技術的不斷進步,或許在不久的將來,AI將在更多領域超越人類,成為我們生活中不可或缺的一部分。這場AI“狼人殺”大戰,僅僅是AI智能邊界拓展的開始,未來的驚喜和震撼,或許遠超我們的想像。