No campo da inteligência artificial, a IA não apenas demonstra inteligência excepcional em jogos de xadrez, mas agora também mostra habilidades incríveis em jogos sociais cheios de estratégias e enganos como "Killing de lobisomem". Recentemente, um teste de referência "Lobisomem a IA" chamado "Game de Eliminação" atraiu atenção generalizada, e os resultados dos testes são chocantes: o GPT-4.5 se destaca neste jogo social, deixando os concorrentes como Claude 3,7 sonetos e Deepseek R1 muito atrás. Esse resultado faz as pessoas se perguntarem se a inteligência social da IA atingiu um nível incrível?
As regras para o “jogo de eliminação” são extremamente desafiadoras: até oito jogadores (incluindo modelos de IA e jogadores ao vivo) participam, eliminando uma pessoa em cada rodada votando até que dois sobreviventes permaneçam. Mais complicadamente, os jogadores eliminados formarão um "júri" para decidir o vencedor final. Esse mecanismo torna o jogo cheio de traição, engano e estratégia e pode ser chamado de versão da IA de "Game of Thrones".

Durante o jogo, os jogadores podem ter debates ferozes na sala de bate -papo público, buscando vantagens expondo opiniões, conquistando o coração das pessoas e confusos oponentes. Além da comunicação pública, os jogadores também podem ter bate -papos privados, alianças secretas ou armadilhas. Em apenas três rodadas de bate -papos privados, a quantidade de informações e estratégias atingiu um nível extremamente alto. Os jogadores devem encontrar um equilíbrio entre confiança e engano e, se não forem cuidadosos, poderão ser eliminados.
Quando o jogo entrar no confronto final, os dois jogadores restantes farão seus discursos finais de despedida, tentando convencer o "júri" eliminado a se sustentar. Por fim, o júri votará em quem é o único vencedor. Esse link não apenas testa as habilidades de expressão da linguagem dos jogadores, mas também testa sua persuasão e estratégia.

Como os principais modelos se apresentam nesta feroz batalha "Wewolf Killing"? Os resultados dos testes são impressionantes:
Com sua excelente capacidade e estratégia de raciocínio social, o GPT-4.5 se tornou um merecido "rei". Ele mostra taxas de traição extremamente baixas no jogo e tendem a obter uma vantagem por meio de alianças e cooperação. Na fase final, o GPT-4.5 mostrou uma persuasão incrível, ganhou com sucesso o apoio do júri e finalmente se destacou com uma taxa de vitória de 62,6%.
Claude3.7Sonnet mostra estratégias flexíveis e mutáveis. Embora seja ligeiramente inferior ao GPT-4.5 nas capacidades de raciocínio social e decepção, ele ainda tem um bom desempenho. Foi fácil passar entre cooperação e traição e, eventualmente, ficou em segundo lugar com uma taxa de vitória de 59,3%.
O Deepseek R1 adotou uma estratégia mais radical, embora tenha um bom desempenho em alguns estágios, mas foi um pouco insuficiente nas estratégias sociais e na expressão verbal e, eventualmente, ficou em terceiro lugar com uma taxa de vitória de 53,8%.
Esse benchmark de "jogo de eliminação" não apenas demonstra o enorme potencial de IA na inteligência social, mas também nos faz esperar o desenvolvimento futuro da IA. Com o avanço contínuo da tecnologia de IA, talvez em um futuro próximo, a IA superará os seres humanos em mais campos e se tornará uma parte indispensável de nossas vidas. Esta guerra "Wewolf Killing" é apenas o começo da expansão dos limites inteligentes da IA. As surpresas e choques do futuro podem estar muito além da nossa imaginação.