En el campo de la inteligencia artificial, la IA no solo demuestra una inteligencia sobresaliente en los juegos de ajedrez, sino que también muestra habilidades sorprendentes en juegos sociales llenos de estrategias y engaños como "asesinato de hombres lobo". Recientemente, una prueba de referencia de AI "Werewolf Kill" llamada "Juego de eliminación" ha atraído una atención generalizada, y los resultados de las pruebas son impactantes: GPT-4.5 se destaca en este juego social, dejando a competidores como Claude 3.7 Sonnet y Deepseek R1 muy lejos. ¿Este resultado hace que la gente se pregunte si la inteligencia social de la IA ha alcanzado un nivel increíble?
Las reglas para el "juego de eliminación" son extremadamente desafiantes: participan hasta ocho jugadores (incluidos modelos de IA y jugadores en vivo), eliminando a una persona en cada ronda votando hasta que quedan dos sobrevivientes. Más complicado, los jugadores eliminados formarán un "jurado" para decidir el ganador final. Este mecanismo hace que el juego esté lleno de traición, engaño y estrategia, y se puede llamar la versión de IA de "Game of Thrones".

Durante el juego, los jugadores pueden tener debates feroces en la sala de chat público, luchando por las ventajas al exponer opiniones, ganar corazones de las personas y confundir a los oponentes. Además de la comunicación pública, los jugadores también pueden tener chats privados, alianzas secretas o trampas establecidas. En solo tres rondas de chats privados, la cantidad de información y estrategia alcanzó un nivel extremadamente alto. Los jugadores deben encontrar un equilibrio entre la confianza y el engaño, y si no tienen cuidado, pueden ser eliminados.
Cuando el juego ingrese al enfrentamiento final, los dos jugadores restantes darán sus discursos de despedida finales, tratando de convencer al "jurado" eliminado para que se apoyen. En última instancia, el jurado votará sobre quién es el único ganador. Este enlace no solo prueba las habilidades de expresión lingüística de los jugadores, sino que también prueba su persuasión y estrategia.

¿Cómo funcionan los principales modelos en esta feroz batalla de AI "Wewolf Killing"? Los resultados de la prueba son impresionantes:
Con su excelente capacidad y estrategia de razonamiento social, GPT-4.5 se ha convertido en un merecido "Rey". Muestra tasas de traición extremadamente bajas en el juego y tiende a obtener una ventaja a través de alianzas y cooperación. En la etapa final, GPT-4.5 mostró una persuasión sorprendente, ganó con éxito el apoyo del jurado y finalmente se destacó con una tasa de victoria del 62.6%.
Claude3.7sonnet muestra estrategias flexibles y cambiantes. Aunque es ligeramente inferior a GPT-4.5 en el razonamiento social y las capacidades de engaño, todavía funciona bien. Fue fácil ir entre la cooperación y la traición, y finalmente ocupó el segundo lugar con una tasa ganadora del 59.3%.
Deepseek R1 adoptó una estrategia más radical, aunque funcionó bien en algunas etapas, pero fue ligeramente insuficiente en estrategias sociales y expresión verbal, y finalmente ocupó el tercer lugar con una tasa ganadora del 53.8%.
Este referencia de "juego de eliminación" no solo demuestra el enorme potencial de IA en la inteligencia social, sino que también nos hace esperar el desarrollo futuro de la IA. Con el avance continuo de la tecnología de IA, tal vez en el futuro cercano, AI superará a los humanos en más campos y se convertirá en una parte indispensable de nuestras vidas. Esta guerra AI "Wewolf Killing" es solo el comienzo de la expansión de los límites inteligentes de IA. Las sorpresas y choques del futuro pueden estar mucho más allá de nuestra imaginación.