在人工智能领域,AI不仅在棋类游戏中展现了卓越的智力,如今在“狼人杀”这种充满策略与欺骗的社交游戏中,也表现出了惊人的能力。最近,一场名为“Elimination Game”的AI“狼人杀”基准测试引起了广泛关注,测试结果令人震惊:GPT-4.5在这场社交博弈中脱颖而出,将Claude3.7Sonnet和DeepSeek R1等竞争对手远远甩在身后。这一结果不禁让人思考,AI的社交智能是否已经达到了令人难以置信的高度?
“Elimination Game”的规则设计极具挑战性:最多8名玩家(包括AI模型和真人玩家)参与其中,每轮通过投票淘汰一人,直到最后剩下两名幸存者。更为复杂的是,被淘汰的玩家将组成“陪审团”,决定最终的胜利者。这种机制使得游戏充满了背叛、欺骗和策略,堪称AI版的“权力游戏”。

在游戏过程中,玩家们可以在公开聊天室中进行激烈的辩论,通过阐述观点、拉拢人心和迷惑对手来争取优势。除了公开交流,玩家之间还可以进行私聊,秘密结盟或设下陷阱。短短三轮私聊中,信息量和策略性都达到了极高的水平。玩家们必须在信任与欺骗之间找到平衡,稍有不慎便可能被淘汰出局。
当游戏进入最终对决时,剩下的两名玩家将进行最后的告别演讲,试图说服被淘汰的“陪审员”支持自己。最终,陪审团将投票决定谁是唯一的胜利者。这一环节不仅考验玩家的语言表达能力,还考验他们的说服力和策略性。

在这场激烈的AI“狼人杀”大战中,各大模型的表现如何呢?测试结果令人瞩目:
GPT-4.5凭借其卓越的社交推理能力和策略性,成为了当之无愧的“王者”。它在游戏中表现出极低的背叛率,更倾向于通过结盟和合作来取得优势。在决赛阶段,GPT-4.5展现出了惊人的说服力,成功赢得了陪审团的支持,最终以62.6%的胜率傲视群雄。
Claude3.7Sonnet则展现了灵活多变的策略,虽然在社交推理和欺骗能力上稍逊于GPT-4.5,但依然表现不俗。它在合作与背叛之间游刃有余,最终以59.3%的胜率位居第二。
DeepSeek R1则采取了更为激进的策略,虽然在某些阶段表现出色,但在社交策略和语言表达方面略显不足,最终以53.8%的胜率位居第三。
这场“Elimination Game”基准测试不仅展示了AI在社交智能方面的巨大潜力,也让我们对AI的未来发展充满了期待。随着AI技术的不断进步,或许在不久的将来,AI将在更多领域超越人类,成为我们生活中不可或缺的一部分。这场AI“狼人杀”大战,仅仅是AI智能边界拓展的开始,未来的惊喜和震撼,或许远超我们的想象。