AI “狼人杀” 大战！GPT-4.5 封神：社交推理 + 顶级欺骗，把 Claude 和 DeepSeek 都 “玩弄于股掌”！ - AI文章

作者：Eve Cole 更新时间：2025-05-26 11:50:02

在人工智能领域，AI不仅在棋类游戏中展现了卓越的智力，如今在“狼人杀”这种充满策略与欺骗的社交游戏中，也表现出了惊人的能力。最近，一场名为“Elimination Game”的AI“狼人杀”基准测试引起了广泛关注，测试结果令人震惊：GPT-4.5在这场社交博弈中脱颖而出，将Claude3.7Sonnet和DeepSeek R1等竞争对手远远甩在身后。这一结果不禁让人思考，AI的社交智能是否已经达到了令人难以置信的高度？

“Elimination Game”的规则设计极具挑战性：最多8名玩家（包括AI模型和真人玩家）参与其中，每轮通过投票淘汰一人，直到最后剩下两名幸存者。更为复杂的是，被淘汰的玩家将组成“陪审团”，决定最终的胜利者。这种机制使得游戏充满了背叛、欺骗和策略，堪称AI版的“权力游戏”。

在游戏过程中，玩家们可以在公开聊天室中进行激烈的辩论，通过阐述观点、拉拢人心和迷惑对手来争取优势。除了公开交流，玩家之间还可以进行私聊，秘密结盟或设下陷阱。短短三轮私聊中，信息量和策略性都达到了极高的水平。玩家们必须在信任与欺骗之间找到平衡，稍有不慎便可能被淘汰出局。

当游戏进入最终对决时，剩下的两名玩家将进行最后的告别演讲，试图说服被淘汰的“陪审员”支持自己。最终，陪审团将投票决定谁是唯一的胜利者。这一环节不仅考验玩家的语言表达能力，还考验他们的说服力和策略性。

在这场激烈的AI“狼人杀”大战中，各大模型的表现如何呢？测试结果令人瞩目：

GPT-4.5凭借其卓越的社交推理能力和策略性，成为了当之无愧的“王者”。它在游戏中表现出极低的背叛率，更倾向于通过结盟和合作来取得优势。在决赛阶段，GPT-4.5展现出了惊人的说服力，成功赢得了陪审团的支持，最终以62.6%的胜率傲视群雄。

Claude3.7Sonnet则展现了灵活多变的策略，虽然在社交推理和欺骗能力上稍逊于GPT-4.5，但依然表现不俗。它在合作与背叛之间游刃有余，最终以59.3%的胜率位居第二。

DeepSeek R1则采取了更为激进的策略，虽然在某些阶段表现出色，但在社交策略和语言表达方面略显不足，最终以53.8%的胜率位居第三。

这场“Elimination Game”基准测试不仅展示了AI在社交智能方面的巨大潜力，也让我们对AI的未来发展充满了期待。随着AI技术的不断进步，或许在不久的将来，AI将在更多领域超越人类，成为我们生活中不可或缺的一部分。这场AI“狼人杀”大战，仅仅是AI智能边界拓展的开始，未来的惊喜和震撼，或许远超我们的想象。