人工知能の分野では、AIはチェスゲームで優れた知性を示すだけでなく、「狼男殺害」のような戦略や欺ceptionに満ちたソーシャルゲームで驚くべき能力を示しています。最近、「Eliminationゲーム」と呼ばれるAIの「Werewolf Kill」ベンチマークテストが広範囲にわたる注目を集めており、テストの結果は衝撃的です。GPT-4.5はこのソーシャルゲームで際立っており、Claude 3.7 SonnetやDeepseek R1などの競合他社がはるかに遅れています。この結果は、AIのソーシャルインテリジェンスが信じられないほどのレベルに達したかどうか疑問に思うようになりますか?
「Elimination Game」のルールは非常に挑戦的です。最大8人のプレイヤー(AIモデルとライブプレイヤーを含む)が参加し、2人の生存者が残るまで投票することにより、各ラウンドで1人の人を排除します。さらに複雑なことに、排除されたプレイヤーは最終勝者を決定するために「ju審」を形成します。このメカニズムは、ゲームを裏切り、欺ception、戦略に満ちたものにし、「Game of Thrones」のAIバージョンと呼ぶことができます。

ゲーム中、プレイヤーはパブリックチャットルームで激しい議論をすることができ、意見を説明し、人々の心を獲得し、敵を混乱させることで利点を求めて努力します。パブリックコミュニケーションに加えて、プレイヤーはプライベートチャット、秘密の提携、またはトラップを設定することもできます。わずか3ラウンドのプライベートチャットで、情報と戦略の量は非常に高いレベルに達しました。プレイヤーは、信頼と欺ceptionのバランスを見つける必要があり、注意しないと排除される可能性があります。
ゲームが最終的な対決に入ると、残りの2人のプレーヤーは最終的な別れのスピーチを行い、排除された「ju審」を自分自身を支援するよう説得しようとします。最終的に、ju審員は誰が唯一の勝者であるかについて投票します。このリンクは、プレイヤーの言語表現スキルをテストするだけでなく、説得と戦略もテストします。

この激しいAIの「Wewolf Killing」の戦いで、主要なモデルはどのように機能しますか?テスト結果は印象的です:
優れた社会的推論能力と戦略により、GPT-4.5は当然の「キング」になりました。ゲーム内の裏切り率が非常に低いことを示しており、同盟と協力を通じて利点を獲得する傾向があります。最終段階では、GPT-4.5は驚くべき説得を示し、ju審員の支持に成功し、最終的に62.6%の勝利率で際立っていました。
Claude3.7Sonnetは、柔軟で変更可能な戦略を示しています。社会的推論と欺ceptionの能力においてGPT-4.5よりもわずかに劣っていますが、それでもうまく機能します。協力と裏切りの間に簡単に行くことができ、最終的には59.3%の勝利で2位にランクされました。
Deepseek R1はより根本的な戦略を採用しましたが、一部の段階ではうまく機能しましたが、社会的戦略と口頭表現ではわずかに不十分であり、最終的には53.8%の勝率で3位にランクされました。
この「エリミネーションゲーム」ベンチマークは、ソーシャルインテリジェンスにおけるAIの大きな可能性を示しているだけでなく、AIの将来の発展を楽しみにしています。 AIテクノロジーの継続的な進歩により、おそらく近い将来、AIはより多くの分野で人間を上回り、私たちの生活の不可欠な部分になります。このAIの「Wewolf Killing」戦争は、AIインテリジェントな境界の拡大の始まりに過ぎません。未来の驚きとショックは、私たちの想像力をはるかに超えているかもしれません。