ในสาขาปัญญาประดิษฐ์ AI ไม่เพียง แต่แสดงให้เห็นถึงความฉลาดที่โดดเด่นในเกมหมากรุก แต่ตอนนี้มันยังแสดงให้เห็นถึงความสามารถที่น่าทึ่งในเกมโซเชียลที่เต็มไปด้วยกลยุทธ์และการหลอกลวงเช่น "มนุษย์หมาป่าฆ่า" เมื่อเร็ว ๆ นี้การทดสอบเกณฑ์มาตรฐาน "มนุษย์หมาป่าฆ่า" AI ที่เรียกว่า "เกมกำจัด" ได้รับความสนใจอย่างกว้างขวางและผลการทดสอบนั้นน่าตกใจ: GPT-4.4.5 โดดเด่นในเกมโซเชียลนี้ออกจากคู่แข่งเช่น Claude 3.7 Sonnet และ Deepseek R1 ผลลัพธ์นี้ทำให้ผู้คนสงสัยว่าสติปัญญาทางสังคมของ AI มาถึงระดับที่เหลือเชื่อหรือไม่?
กฎสำหรับ“ เกมกำจัด” นั้นมีความท้าทายอย่างยิ่ง: ผู้เล่นสูงสุดแปดคน (รวมถึงโมเดล AI และผู้เล่นสด) เข้าร่วมโดยกำจัดหนึ่งคนในแต่ละรอบโดยการลงคะแนนจนกว่าผู้รอดชีวิตสองคนจะเหลือ ซับซ้อนยิ่งขึ้นผู้เล่นที่ถูกกำจัดจะจัดตั้ง "คณะลูกขุน" เพื่อตัดสินผู้ชนะคนสุดท้าย กลไกนี้ทำให้เกมเต็มไปด้วยการทรยศการหลอกลวงและกลยุทธ์และสามารถเรียกว่า "Game of Thrones" เวอร์ชัน AI

ในระหว่างเกมผู้เล่นสามารถมีการถกเถียงกันอย่างดุเดือดในห้องสนทนาสาธารณะโดยมุ่งมั่นเพื่อความได้เปรียบโดยความคิดเห็นที่ได้รับรางวัลชนะใจผู้คนและฝ่ายตรงข้ามที่สับสน นอกเหนือจากการสื่อสารสาธารณะผู้เล่นยังสามารถมีการแชทส่วนตัวพันธมิตรลับหรือตั้งกับดัก ในการแชทส่วนตัวเพียงสามรอบจำนวนข้อมูลและกลยุทธ์ถึงระดับสูงมาก ผู้เล่นจะต้องพบกับความสมดุลระหว่างความไว้วางใจและการหลอกลวงและหากพวกเขาไม่ระวังพวกเขาอาจถูกกำจัด
เมื่อเกมเข้าสู่การประลองครั้งสุดท้ายผู้เล่นสองคนที่เหลือจะกล่าวสุนทรพจน์อำลาครั้งสุดท้ายพยายามที่จะโน้มน้าวให้ "คณะลูกขุน" ที่ถูกกำจัดเพื่อสนับสนุนตัวเอง ในที่สุดคณะลูกขุนจะลงคะแนนว่าใครเป็นผู้ชนะเพียงคนเดียว ลิงค์นี้ไม่เพียง แต่ทดสอบทักษะการแสดงออกทางภาษาของผู้เล่นเท่านั้น แต่ยังทดสอบการโน้มน้าวใจและกลยุทธ์

นางแบบหลักทำงานอย่างไรในการต่อสู้ "Wewolf Killing" ที่ดุเดือดนี้ ผลการทดสอบนั้นน่าประทับใจ:
ด้วยความสามารถและกลยุทธ์การให้เหตุผลทางสังคมที่ยอดเยี่ยม GPT-4.5 ได้กลายเป็น "ราชา" ที่สมควรได้รับ มันแสดงให้เห็นว่าอัตราการทรยศต่ำมากในเกมและมีแนวโน้มที่จะได้รับประโยชน์จากพันธมิตรและความร่วมมือ ในขั้นตอนสุดท้าย GPT-4.5 แสดงให้เห็นถึงการโน้มน้าวใจที่น่าทึ่งได้รับการสนับสนุนจากคณะลูกขุนและในที่สุดก็โดดเด่นด้วยอัตราชัยชนะ 62.6%
Claude3.7sonNet แสดงกลยุทธ์ที่ยืดหยุ่นและเปลี่ยนแปลงได้ แม้ว่ามันจะด้อยกว่า GPT-4.5 เล็กน้อยในการใช้เหตุผลทางสังคมและความสามารถในการหลอกลวง แต่ก็ยังทำงานได้ดี มันง่ายที่จะไประหว่างความร่วมมือและการทรยศและในที่สุดก็อยู่ในอันดับที่สองด้วยอัตราการชนะ 59.3%
Deepseek R1 ใช้กลยุทธ์ที่รุนแรงมากขึ้นแม้ว่ามันจะทำงานได้ดีในบางช่วง แต่ก็ไม่เพียงพอในกลยุทธ์ทางสังคมและการแสดงออกทางวาจาเล็กน้อยและในที่สุดก็อยู่ในอันดับที่สามด้วยอัตราการชนะ 53.8%
มาตรฐาน "เกมกำจัด" นี้ไม่เพียง แต่แสดงให้เห็นถึงศักยภาพที่ยิ่งใหญ่ของ AI ในระบบปัญญาทางสังคม แต่ยังทำให้เราตั้งตารอการพัฒนาในอนาคตของ AI ด้วยความก้าวหน้าอย่างต่อเนื่องของเทคโนโลยี AI บางทีในอนาคตอันใกล้ AI จะเกินกว่ามนุษย์ในสาขามากขึ้นและกลายเป็นส่วนที่ขาดไม่ได้ในชีวิตของเรา สงคราม AI "Wewolf Killing" นี้เป็นเพียงจุดเริ่มต้นของการขยายขอบเขตของ AI Intelligent Boundaries ความประหลาดใจและแรงกระแทกของอนาคตอาจเกินกว่าจินตนาการของเรา