Ai "Warwolf Killing" War! GPT-4.5: Raisonnement social + Top Deception, "Jouer avec Claude et Deepseek"! - Articles AI

Auteur：Eve Cole Date de mise à jour：2025-05-26 11:50:02

Dans le domaine de l'intelligence artificielle, l'IA démontre non seulement l'intelligence exceptionnelle dans les jeux d'échecs, mais maintenant cela montre également des capacités incroyables dans les jeux sociaux pleins de stratégies et de tromperies comme "Kildolf Killing". Récemment, un test de référence AI "Kill Kill" appelé "Game d'élimination" a attiré une attention généralisée, et les résultats des tests sont choquants: GPT-4.5 se démarque dans ce jeu social, laissant des concurrents tels que Claude 3.7 Sonnet et Deepseek R1 loin derrière. Ce résultat fait que les gens se demandent si l'intelligence sociale de l'IA a atteint un niveau incroyable?

Les règles de «jeu d'élimination» sont extrêmement difficiles: jusqu'à huit joueurs (y compris les modèles d'IA et les joueurs en direct), éliminant une personne à chaque tour en votant jusqu'à ce que deux survivants soient laissés. Plus compliqué, les joueurs éliminés formeront un "jury" pour décider du vainqueur final. Ce mécanisme rend le jeu plein de trahison, de tromperie et de stratégie, et peut être appelé la version AI de "Game of Thrones".

Pendant le match, les joueurs peuvent avoir des débats féroces dans la salle de discussion publique, efforçant des avantages en exposant des opinions, en remportant le cœur des gens et en confondant les adversaires. En plus de la communication publique, les joueurs peuvent également avoir des chats privés, des alliances secrètes ou des pièges à régler. En seulement trois cycles de chats privés, la quantité d'informations et de stratégie a atteint un niveau extrêmement élevé. Les joueurs doivent trouver un équilibre entre la confiance et la tromperie, et s'ils ne font pas attention, ils peuvent être éliminés.

Lorsque le jeu entre dans la confrontation finale, les deux joueurs restants prononceront leurs derniers discours d'adieu, essayant de convaincre le "jury" éliminé pour se soutenir. En fin de compte, le jury votera sur qui est le seul gagnant. Ce lien teste non seulement les compétences d'expression linguistique des joueurs, mais teste également leur persuasion et leur stratégie.

Comment les principaux modèles se produisent-ils dans cette bataille féroce AI "Wewolf Killing"? Les résultats des tests sont impressionnants:

Avec son excellente capacité de raisonnement social et sa stratégie, GPT-4.5 est devenu un "roi" bien mérité. Il montre des taux de trahison extrêmement faibles dans le jeu et a tendance à obtenir un avantage grâce aux alliances et à la coopération. Dans la dernière étape, GPT-4.5 a montré une persuasion incroyable, a remporté avec succès le soutien du jury et s'est finalement démarqué avec un taux de victoire de 62,6%.

Claude3.7Sonnet montre des stratégies flexibles et modifiables. Bien qu'il soit légèrement inférieur à GPT-4.5 dans les capacités de raisonnement social et de tromperie, il fonctionne toujours bien. Il était facile d'aller entre la coopération et la trahison, et finalement classé deuxième avec un taux gagnant de 59,3%.

Deepseek R1 a adopté une stratégie plus radicale, bien qu'elle ait bien fonctionné à certaines étapes, mais elle était légèrement insuffisante dans les stratégies sociales et l'expression verbale, et a finalement classé troisième avec un taux gagnant de 53,8%.

Cette référence "Game" Game "démontre non seulement l'énorme potentiel de l'IA dans l'intelligence sociale, mais nous fait également attendre avec impatience le développement futur de l'IA. Avec l'avancement continu de la technologie de l'IA, peut-être dans un avenir proche, l'IA dépassera les humains dans plus de domaines et deviendra une partie indispensable de notre vie. Cette guerre AI "Wewolf Killing" n'est que le début de l'expansion des frontières intelligentes de l'IA. Les surprises et les chocs de l'avenir pourraient être bien au-delà de notre imagination.