Di bidang kecerdasan buatan, AI tidak hanya menunjukkan kecerdasan luar biasa dalam permainan catur, tetapi sekarang juga menunjukkan kemampuan luar biasa dalam permainan sosial yang penuh dengan strategi dan penipuan seperti "pembunuhan manusia serigala". Baru-baru ini, tes benchmark AI "Werewolf Kill" yang disebut "Game Eliminasi" telah menarik perhatian luas, dan hasil tesnya mengejutkan: GPT-4.5 menonjol dalam permainan sosial ini, meninggalkan pesaing seperti Claude 3.7 Sonnet dan Deepseek R1 jauh di belakang. Hasil ini membuat orang bertanya -tanya apakah kecerdasan sosial AI telah mencapai tingkat yang luar biasa?
Aturan untuk "Game Eliminasi" sangat menantang: hingga delapan pemain (termasuk model AI dan pemain langsung) berpartisipasi, menghilangkan satu orang di setiap putaran dengan memilih sampai dua orang yang selamat tersisa. Lebih rumit, para pemain yang dihilangkan akan membentuk "juri" untuk memutuskan pemenang terakhir. Mekanisme ini membuat permainan penuh dengan pengkhianatan, penipuan dan strategi, dan dapat disebut versi AI dari "Game of Thrones".

Selama pertandingan, pemain dapat memiliki debat sengit di ruang obrolan umum, berjuang untuk keuntungan dengan menguraikan pendapat, memenangkan hati orang -orang dan lawan yang membingungkan. Selain komunikasi publik, pemain juga dapat memiliki obrolan pribadi, aliansi rahasia atau mengatur perangkap. Hanya dalam tiga putaran obrolan pribadi, jumlah informasi dan strategi mencapai tingkat yang sangat tinggi. Pemain harus menemukan keseimbangan antara kepercayaan dan penipuan, dan jika mereka tidak hati -hati, mereka mungkin dihilangkan.
Ketika permainan memasuki pertarungan terakhir, dua pemain yang tersisa akan memberikan pidato perpisahan terakhir mereka, mencoba meyakinkan "juri" yang dihilangkan untuk menghidupi diri sendiri. Pada akhirnya, juri akan memilih siapa yang merupakan satu -satunya pemenang. Tautan ini tidak hanya menguji keterampilan ekspresi bahasa pemain, tetapi juga menguji persuasi dan strategi mereka.

Bagaimana kinerja model utama dalam pertempuran "Wewolf Killing" AI yang sengit ini? Hasil tes sangat mengesankan:
Dengan kemampuan dan strategi penalaran sosial yang sangat baik, GPT-4.5 telah menjadi "raja" yang layak. Ini menunjukkan tingkat pengkhianatan yang sangat rendah dalam permainan dan cenderung mendapatkan keuntungan melalui aliansi dan kerja sama. Pada tahap terakhir, GPT-4.5 menunjukkan persuasi yang luar biasa, berhasil memenangkan dukungan juri, dan akhirnya menonjol dengan tingkat kemenangan 62,6%.
Claude3.7Sonnet menunjukkan strategi yang fleksibel dan berubah. Meskipun sedikit lebih rendah daripada GPT-4.5 dalam penalaran sosial dan kemampuan penipuan, itu masih berkinerja baik. Mudah untuk pergi antara kerja sama dan pengkhianatan, dan akhirnya berada di peringkat kedua dengan tingkat kemenangan 59,3%.
Deepseek R1 mengadopsi strategi yang lebih radikal, meskipun berkinerja baik dalam beberapa tahap, tetapi itu sedikit tidak cukup dalam strategi sosial dan ekspresi verbal, dan akhirnya peringkat ketiga dengan tingkat kemenangan 53,8%.
Benchmark "Elimination Game" ini tidak hanya menunjukkan potensi besar AI dalam kecerdasan sosial, tetapi juga membuat kita menantikan pengembangan AI di masa depan. Dengan kemajuan teknologi AI yang berkelanjutan, mungkin dalam waktu dekat, AI akan melampaui manusia di lebih banyak bidang dan menjadi bagian yang sangat diperlukan dari kehidupan kita. Perang AI "Wewolf Killing" AI ini hanyalah awal dari perluasan batas -batas cerdas AI. Kejutan dan kejutan masa depan mungkin jauh di luar imajinasi kita.