منظمة العفو الدولية "القتل بالذئب"! GPT-4.5: التفكير الاجتماعي + الخداع العلوي ، "اللعب مع كلود وديبسيك"! - مقالات منظمة العفو الدولية

الكاتب：Eve Cole وقت التحديث：2025-05-26 11:50:02

في مجال الذكاء الاصطناعي ، لا يوضح الذكاء الاصطناعي الذكاء المتميز في ألعاب الشطرنج فحسب ، بل يظهر الآن أيضًا قدرات مذهلة في الألعاب الاجتماعية المليئة بالاستراتيجيات والخداع مثل "القتل المذور". في الآونة الأخيرة ، اجتذبت الاختبار القياسي للذئب "الذئب" ، وقد اجتذبت اختبار "لعبة التخلص من" ، ونتائج الاختبار مروعة: تبرز GPT-4.5 في هذه اللعبة الاجتماعية ، تاركًا منافسين مثل كلود 3.7 Sonnet و Deepseek R1 بعيدًا. هذه النتيجة تجعل الناس يتساءلون عما إذا كانت الذكاء الاجتماعي لـ AI قد وصلت إلى مستوى لا يصدق؟

تعتبر قواعد "لعبة الإقصاء" صعبة للغاية: تشارك ما يصل إلى ثمانية لاعبين (بما في ذلك نماذج الذكاء الاصطناعى واللاعبين الحية) ، مما يلغي شخصًا واحدًا في كل جولة عن طريق التصويت حتى يتم ترك اثنين من الناجين. بشكل أكثر تعقيدًا ، سيشكل اللاعبون المقلبون "هيئة محلفين" لتحديد الفائز النهائي. هذه الآلية تجعل اللعبة مليئة بالخيانة والخداع والاستراتيجية ، ويمكن تسميتها إصدار AI من "Game of Thrones".

خلال اللعبة ، يمكن للاعبين إجراء مناقشات شرسة في غرفة الدردشة العامة ، والسعي لتحقيق مزايا من خلال شرح الآراء ، والفوز بقلوب الناس وخصومها المربكة. بالإضافة إلى الاتصالات العامة ، يمكن للاعبين أيضًا الحصول على دردشات خاصة أو تحالفات سرية أو تعيين مصائد. في ثلاث جولات فقط من الدردشات الخاصة ، وصلت كمية المعلومات والاستراتيجية إلى مستوى عال للغاية. يجب أن يجد اللاعبون توازنًا بين الثقة والخداع ، وإذا لم يكونوا حذرين ، فقد يتم القضاء عليهم.

عندما تدخل اللعبة في المواجهة النهائية ، سيقوم اللاعبان المتبقيان بإلقاء خطابات وداع نهائية ، في محاولة لإقناع "هيئة المحلفين" التي تم إلغاؤها لدعم أنفسهم. في النهاية ، ستصوت هيئة المحلفين على من هو الفائز الوحيد. لا يختبر هذا الرابط مهارات التعبير اللغوية للاعبين فحسب ، بل يختبر أيضًا إقناعهم واستراتيجيتهم.

كيف تؤدي النماذج الرئيسية في معركة الذكاء الاصطناعي هذه؟ نتائج الاختبار مثيرة للإعجاب:

من خلال قدرتها على التفكير الاجتماعي الممتاز واستراتيجيتها ، أصبحت GPT-4.5 "ملكًا" مستحقة. إنه يظهر معدلات خيانة منخفضة للغاية في اللعبة وتميل إلى الحصول على ميزة من خلال التحالفات والتعاون. في المرحلة النهائية ، أظهر GPT-4.5 إقناعًا مذهلاً ، وفاز بنجاح بدعم هيئة المحلفين ، وأخيراً برزت بمعدل فوز بنسبة 62.6 ٪.

يُظهر Claude3.7sonnet استراتيجيات مرنة ومتغيرة. على الرغم من أنه أقل شأناً من GPT-4.5 في إمكانات التفكير الاجتماعي والخداع ، إلا أنه لا يزال أداءً جيدًا. كان من السهل الذهاب بين التعاون والخيانة ، وفي النهاية احتل المرتبة الثانية بمعدل فوز 59.3 ٪.

اعتمدت Deepseek R1 استراتيجية أكثر راديكالية ، على الرغم من أنها كانت أداءً جيدًا في بعض المراحل ، لكنها كانت غير كافية قليلاً في الاستراتيجيات الاجتماعية والتعبير اللفظي ، وفي النهاية احتلت المرتبة الثالثة بمعدل فوز قدره 53.8 ٪.

لا يوضح معيار "لعبة القضاء" هذه الإمكانات الضخمة لمنظمة العفو الدولية في الذكاء الاجتماعي فحسب ، بل تجعلنا نتطلع أيضًا إلى التطور المستقبلي لمنظمة العفو الدولية. مع التقدم المستمر لتكنولوجيا الذكاء الاصطناعي ، ربما في المستقبل القريب ، سوف تتجاوز الذكاء الاصطناعى البشر في المزيد من الحقول ويصبح جزءًا لا غنى عنه من حياتنا. هذه الحرب "Wewolf Killing" هي مجرد بداية لتوسيع الحدود الذكية من الذكاء الاصطناعي. قد تكون مفاجآت وصدمات المستقبل أبعد من خيالنا.