AI "Убийство оборотня"! GPT-4.5: социальные рассуждения + топ-обман, «Играя с Клодом и Дипсеком»! - Статьи ИИ

Автор：Eve Cole Время обновления：2025-05-26 11:50:02

В области искусственного интеллекта ИИ не только демонстрирует выдающийся интеллект в шахматных играх, но и теперь он также показывает удивительные способности в социальных играх, полных стратегий и обманов, таких как «убийство оборотня». В последнее время тест AI «Убийство оборотня убийства» под названием «Игра« Элиминация »привлек к себе широкое внимание, и результаты теста шокируют: GPT-4.5 выделяется в этой социальной игре, оставляя таких конкурентов, как Claude 3.7 Sonnet и Deepseek R1. Этот результат заставляет людей задуматься о том, достиг ли социальный интеллект ИИ невероятный уровень?

Правила для «выбывания» чрезвычайно сложны: участвуют до восьми игроков (включая модели искусственного интеллекта и живых игроков), устранение одного человека в каждом раунде, проголосовав до тех пор, пока не останется два выживших. Более сложно, что устраненные игроки сформируют «жюри», чтобы решить финального победителя. Этот механизм делает игру полной предательства, обмана и стратегии, и его можно назвать версией ИИ «Игры престолов».

Во время игры игроки могут вести жесткие дебаты в общедоступном чате, стремясь к преимуществам, высказывая мнения, завоевывая сердца людей и запутывающие противников. В дополнение к публичному общению, игроки также могут иметь частные чаты, секретные альянсы или устанавливать ловушки. Всего в трех раундах частных чатов объем информации и стратегии достигли чрезвычайно высокого уровня. Игроки должны найти баланс между доверием и обманом, и если они не осторожны, они могут быть устранены.

Когда игра вступит в финальную вскрытие, оставшиеся два игрока выступит с последними прощальными речами, пытаясь убедить исключенного «жюри» поддержать себя. В конечном счете, присяжные проголосуют за то, кто является единственным победителем. Эта ссылка не только проверяет навыки выражения языка игроков, но также проверяет их убеждение и стратегию.

Как крупные модели выступают в этой яростной битве "Убий, Убивая" ВИВОЛЬФ? Результаты теста впечатляют:

Благодаря отличной способности и стратегии социальных рассуждений GPT-4.5 стал заслуженным «королем». Он показывает чрезвычайно низкие показатели предательства в игре и имеет тенденцию получить преимущество благодаря альянсам и сотрудничеству. На последнем этапе GPT-4.5 показал удивительное убеждение, успешно завоевало поддержку присяжных и, наконец, выделялся с 62,6% -ным уровнем победы.

Claude3.7sonnet показывает гибкие и изменчивые стратегии. Хотя он немного уступает GPT-4.5 в социальных рассуждениях и обмане, он все еще работает хорошо. Было легко пройти между сотрудничеством и предательством, и в конечном итоге заняло второе место с показателем выигрыша 59,3%.

DeepSeek R1 принял более радикальную стратегию, хотя на некоторых этапах он показал хорошие результаты, но она была немного недостаточно в социальных стратегиях и словесном выражении, и в конечном итоге занял третье место с уровнем победы 53,8%.

Этот эталон «ликвидации» не только демонстрирует огромный потенциал ИИ в социальном интеллекте, но и заставляет нас рассчитывать на будущее развитие ИИ. Благодаря постоянному развитию технологий ИИ, возможно, в ближайшем будущем ИИ превзойдет людей в большем количестве областей и станет незаменимой частью нашей жизни. Эта война «Wewolf Killing» - это только начало расширения интеллектуальных границ ИИ. Сюрдины и шоки будущего могут быть далеко за пределами нашего воображения.