باعتبارها لعبة كمبيوتر معقدة تركزت على البناء وإدارة الموارد ، أصبح Factorio أداة مهمة للباحثين لتقييم قدرات الذكاء الاصطناعي في السنوات الأخيرة. لا تتطلب هذه اللعبة فقط من اللاعبين تخطيط وبناء أنظمة معقدة ، بل تحتاج أيضًا إلى إدارة موارد وسلاسل الإنتاج المتعددة في نفس الوقت ، بحيث يمكنها اختبار أداء نماذج اللغة بشكل فعال في البيئات المعقدة. من خلال محاكاة عمليات تخصيص الموارد وإنتاجها في العالم الحقيقي ، يوفر Factorio منصة صعبة للغاية لأبحاث الذكاء الاصطناعي.
لتقييم أكثر بشكل منهجي قدرات الذكاء الاصطناعي ، طور فريق البحث نظامًا يسمى بيئة التعلم العامل (FLE). يوفر النظام وضعين مختلفين للاختبار: "الوضع التجريبي" و "الوضع المفتوح". في الوضع التجريبي ، يحتاج عوامل الذكاء الاصطناعى إلى إكمال 24 تحديًا منظمًا يتراوح بين آلات بسيطة إلى ما يقرب من مائة مصنع للآلات ، ووضع أهداف محددة وموارد محدودة. في الوضع المفتوح ، يمكن لعوامل الذكاء الاصطناعى استكشاف الخرائط التي تم إنشاؤها بواسطة البرنامج بحرية ، مع الهدف الوحيد المتمثل في بناء أكبر مصنع ممكن. يختبر هذان الوضعان أداء الذكاء الاصطناعى في بيئات مقيدة وخالية ، على التوالي.

يتفاعل وكيل الذكاء الاصطناعي مع عامل من خلال API Python ، وهو قادر على إنشاء رمز لأداء العمليات المختلفة والتحقق من حالة اللعبة. يتيح واجهة برمجة التطبيقات هذه للوكيل أداء وظائف مثل وضع المكونات وتوصيلها وإدارة الموارد ومراقبة تقدم الإنتاج. وبهذه الطريقة ، تمكن فريق البحث من اختبار قدرة نماذج اللغة على تجميع البرامج والتعامل مع الأنظمة المعقدة. تم تصميم API لتمكين وكلاء الذكاء الاصطناعي من محاكاة عمليات صنع القرار في العالم الحقيقي في الألعاب ، وبالتالي توفير بيانات غنية للبحث.
لتقييم أداء وكلاء الذكاء الاصطناعى ، استخدم الباحثون مقاييس رئيسية: "درجة الإنتاج" و "Milestone". تُستخدم درجات الإنتاج لحساب قيمة إجمالي الناتج وتنمو بشكل كبير مع زيادة تعقيد سلسلة الإنتاج ؛ تتبع المعالم الإنجازات المهمة مثل إنشاء عناصر جديدة أو تقنية البحث. تأخذ المحاكاة الاقتصادية للعبة أيضًا عوامل مثل ندرة الموارد وسعر السوق وكفاءة الإنتاج ، مما يجعل التقييم أكثر شمولاً وأصالة.
قام فريق الأبحاث ، بما في ذلك العلماء من الأنثروبور ، بتقييم أداء ستة نماذج لغوية رائدة في بيئة FLE ، بما في ذلك CLAUDE3.5SONNET و GPT-4O ونسخةها الصغيرة ، Deepseek-V3 ، Gemini2.0FLASH ، و LLAMA-3.3-70B-instruct. لم يتم تضمين نماذج الاستدلال الكبيرة (LRMS) في هذه الجولة من الاختبارات ، لكن المعايير السابقة أظهرت أن نماذج مثل O1 كانت أداءً جيدًا في قدرات التخطيط ، على الرغم من أنها كانت لها قيود أيضًا.
تظهر نتائج الاختبار أن نماذج اللغة المشاركة في التقييم تواجه تحديات كبيرة في التفكير المكاني والتخطيط طويل الأجل وتصحيح الخطأ. عند بناء مصنع ، يواجه عوامل الذكاء الاصطناعى صعوبات في ترتيب وتوصيل الآلات بكفاءة ، مما يؤدي إلى تخطيط دون المستوى الأمثل واختناقات الإنتاج. يعتبر التفكير الاستراتيجي أيضًا تحديًا ، وتفضل النماذج عمومًا تحديد أولويات الأهداف قصيرة الأجل على المدى الطويل. علاوة على ذلك ، على الرغم من أنه يمكنهم التعامل مع استكشاف الأخطاء وإصلاحها ، إلا أنها تميل إلى الوقوع في حلقة تصحيح أخطاء غير فعالة عند مواجهة مشاكل أكثر تعقيدًا.

من بين النماذج التي تم اختبارها ، قام كلود 3.5sonnet بأفضل أفضل ، لكنه لا يزال فشل في فهم جميع التحديات. في الوضع التجريبي ، أكمل كلود بنجاح 15 من 24 مهمة ، في حين أن الطرز الأخرى أكملت فقط 10 على الأكثر. في الاختبار المفتوح ، بلغت درجة إنتاج كلود 2456 نقطة ، مع اتباع GPT-4O عن كثب برصيد 1789 نقطة. يُظهر كلود طريقة اللعب المعقدة لـ "Factorio" وتستخدم أساليب التصنيع والبحث الاستراتيجية للتحول بسرعة من المنتجات الأساسية إلى عمليات الإنتاج المعقدة ، وخاصة تحسين تكنولوجيا الحفر الكهربائية ، مما يحسن بشكل كبير من سرعة إنتاج لوحات الحديد.
يعتقد الباحثون أن ميزات FLE المفتوحة والقابلة للتطوير تجعلها ذات قيمة مهمة في الاختبار المستقبلي لنماذج اللغة الأكثر قوة. يقترحون تمديد البيئة لتشمل سيناريوهات متعددة الوكلاء ومعايير الأداء البشري من أجل توفير سياق تقييم أفضل. يثري هذا العمل مجموعة من معايير الذكاء الاصطناعى القائمة على اللعبة ، والتي تشمل أيضًا Balrog و McBench القادمة ، والتي سيتم تصميمها باستخدام Minecraft.
بيئة التعلم العامل: https://top.aibase.com/tool/factorio-learning-environment
النقاط الرئيسية:
أصبحت لعبة Factorio أداة جديدة لتقييم قدرات الذكاء الاصطناعي واختبار إمكانات إدارة النظام المعقدة لنماذج اللغة.
توفر بيئة التعلم في Factorio (FLE) أوضاعًا تجريبية ومفتوحة تتيح لـ AI التحدي في ظل ظروف مختلفة.
تشير الاختبارات إلى أن Claude3.5Sonnet يعمل بشكل أفضل ، ولكن لا تزال هناك صعوبات في التخطيط طويل الأجل والتعامل مع المشكلات المعقدة.