ในฐานะที่เป็นเกมคอมพิวเตอร์ที่ซับซ้อนโดยมีศูนย์กลางอยู่ที่การจัดการและการจัดการทรัพยากร Factorio ได้กลายเป็นเครื่องมือสำคัญสำหรับนักวิจัยในการประเมินความสามารถด้านปัญญาประดิษฐ์ในช่วงไม่กี่ปีที่ผ่านมา เกมนี้ไม่เพียง แต่ต้องการให้ผู้เล่นวางแผนและสร้างระบบที่ซับซ้อน แต่ยังต้องจัดการทรัพยากรและห่วงโซ่การผลิตหลายอย่างในเวลาเดียวกันดังนั้นจึงสามารถทดสอบประสิทธิภาพของแบบจำลองภาษาในสภาพแวดล้อมที่ซับซ้อนได้อย่างมีประสิทธิภาพ ด้วยการจำลองการจัดสรรทรัพยากรและกระบวนการผลิตในโลกแห่งความเป็นจริง Factorio เป็นแพลตฟอร์มที่ท้าทายอย่างยิ่งสำหรับการวิจัยปัญญาประดิษฐ์
ในการประเมินความสามารถของปัญญาประดิษฐ์อย่างเป็นระบบมากขึ้นทีมวิจัยได้พัฒนาระบบที่เรียกว่า Environment Founst อยู่ด้านการเรียนรู้ (FLE) ระบบมีโหมดทดสอบสองโหมดที่แตกต่างกัน: "โหมดทดลอง" และ "โหมดเปิด" ในโหมดการทดลองตัวแทน AI จำเป็นต้องดำเนินการตามความท้าทายที่มีโครงสร้าง 24 รายการตั้งแต่เครื่องสองเครื่องไปจนถึงโรงงานเครื่องจักรเกือบหนึ่งร้อยเครื่องโดยตั้งเป้าหมายเฉพาะและทรัพยากรที่ จำกัด ในโหมดเปิดตัวแทน AI สามารถสำรวจแผนที่ที่สร้างโปรแกรมได้อย่างอิสระโดยมีเป้าหมายเพียงอย่างเดียวในการสร้างโรงงานที่ใหญ่ที่สุดเท่าที่จะเป็นไปได้ สองโหมดนี้ทดสอบประสิทธิภาพของ AI ในสภาพแวดล้อมที่ จำกัด และฟรีตามลำดับ

เอเจนต์ AI โต้ตอบกับ Factorio ผ่าน Python API และสามารถสร้างรหัสเพื่อดำเนินการต่าง ๆ และตรวจสอบสถานะเกม API นี้ช่วยให้เอเจนต์สามารถทำงานได้เช่นการวางและเชื่อมต่อส่วนประกอบการจัดการทรัพยากรและการตรวจสอบความคืบหน้าการผลิต ด้วยวิธีนี้ทีมวิจัยสามารถทดสอบความสามารถของแบบจำลองภาษาในการสังเคราะห์โปรแกรมและจัดการระบบที่ซับซ้อน API ได้รับการออกแบบมาเพื่อให้ตัวแทน AI จำลองกระบวนการตัดสินใจในโลกแห่งความเป็นจริงในเกมดังนั้นจึงให้ข้อมูลที่หลากหลายสำหรับการวิจัย
เพื่อประเมินประสิทธิภาพของตัวแทน AI นักวิจัยใช้สองตัวชี้วัดสำคัญ:“ คะแนนการผลิต” และ“ เหตุการณ์สำคัญ” คะแนนการผลิตใช้ในการคำนวณมูลค่าของผลผลิตทั้งหมดและเติบโตแบบทวีคูณเนื่องจากความซับซ้อนของห่วงโซ่การผลิตเพิ่มขึ้น เหตุการณ์สำคัญติดตามความสำเร็จที่สำคัญเช่นการสร้างรายการใหม่หรือเทคโนโลยีการค้นคว้า การจำลองทางเศรษฐกิจของเกมยังคำนึงถึงปัจจัยต่าง ๆ เช่นการขาดแคลนทรัพยากรราคาตลาดและประสิทธิภาพการผลิตทำให้การประเมินครอบคลุมและเป็นของแท้มากขึ้น
ทีมวิจัยรวมถึงนักวิทยาศาสตร์จากมานุษยวิทยาประเมินประสิทธิภาพของแบบจำลองภาษาชั้นนำหกแบบในสภาพแวดล้อม FLE รวมถึง Claude3.5Sonnet, GPT-4O และรุ่นมินิ Deepseek-V3, Gemini2.0Flash และ Llama-3.3-70B-instruct แบบจำลองการอนุมานขนาดใหญ่ (LRMS) ไม่รวมอยู่ในการทดสอบรอบนี้ แต่เกณฑ์มาตรฐานก่อนหน้านี้แสดงให้เห็นว่าแบบจำลองเช่น O1 ทำงานได้ดีในความสามารถในการวางแผนแม้ว่าพวกเขาจะมีข้อ จำกัด
ผลการทดสอบแสดงให้เห็นว่าแบบจำลองภาษาที่เกี่ยวข้องในการประเมินเผชิญกับความท้าทายที่สำคัญในการให้เหตุผลเชิงพื้นที่การวางแผนระยะยาวและการแก้ไขข้อผิดพลาด เมื่อสร้างโรงงานตัวแทน AI มีปัญหาในการจัดเรียงและเชื่อมต่อเครื่องจักรอย่างมีประสิทธิภาพส่งผลให้เค้าโครงที่ไม่ดีและคอขวดการผลิต การคิดเชิงกลยุทธ์ก็เป็นสิ่งที่ท้าทายและโดยทั่วไปแล้วแบบจำลองก็ต้องการจัดลำดับความสำคัญของเป้าหมายระยะสั้นมากกว่าการวางแผนระยะยาว นอกจากนี้ในขณะที่พวกเขาสามารถจัดการกับการแก้ไขปัญหาขั้นพื้นฐานพวกเขามักจะตกอยู่ในการดีบักที่ไม่มีประสิทธิภาพเมื่อเผชิญกับปัญหาที่ซับซ้อนมากขึ้น

ในบรรดาโมเดลที่ผ่านการทดสอบ Claude 3.5Sonnet ทำได้ดีที่สุด แต่ก็ยังล้มเหลวในการเข้าใจความท้าทายทั้งหมด ในโหมดการทดลอง Claude ประสบความสำเร็จในการทำงาน 15 จาก 24 งานในขณะที่รุ่นอื่น ๆ เสร็จสิ้นเพียง 10 เท่านั้น ในการทดสอบแบบเปิดคะแนนการผลิตของ Claude ถึง 2456 คะแนนโดย GPT-4O ติดตามอย่างใกล้ชิดด้วย 1789 คะแนน Claude แสดงการเล่นเกมที่ซับซ้อนของ "Factorio" และใช้วิธีการผลิตเชิงกลยุทธ์และวิธีการวิจัยเพื่อเปลี่ยนจากผลิตภัณฑ์พื้นฐานไปเป็นกระบวนการผลิตที่ซับซ้อนโดยเฉพาะอย่างยิ่งการปรับปรุงเทคโนโลยีการขุดเจาะไฟฟ้าซึ่งช่วยเพิ่มความเร็วในการผลิตแผ่นเหล็กอย่างมีนัยสำคัญ
นักวิจัยเชื่อว่าคุณลักษณะที่เปิดกว้างและปรับขนาดได้ของ FLE ทำให้มีคุณค่าที่สำคัญในการทดสอบแบบจำลองภาษาที่ทรงพลังกว่าในอนาคต พวกเขาแนะนำให้ขยายสภาพแวดล้อมเพื่อรวมสถานการณ์หลายตัวแทนและมาตรฐานประสิทธิภาพของมนุษย์เพื่อให้บริบทการประเมินที่ดีขึ้น งานนี้เพิ่มคุณค่าให้กับการรวบรวมเกณฑ์มาตรฐาน AI ที่ใช้เกมซึ่งรวมถึง Balrog และ McBench ที่กำลังจะมาถึงซึ่งจะถูกสร้างแบบจำลองโดยใช้ Minecraft
สภาพแวดล้อมการเรียนรู้ปัจจัย: https://top.aibase.com/tool/factorio-learning-environment
ประเด็นสำคัญ:
เกม Factorio ได้กลายเป็นเครื่องมือใหม่สำหรับการประเมินความสามารถของ AI และทดสอบความสามารถในการจัดการระบบที่ซับซ้อนของแบบจำลองภาษา
Environment Environment (FLIC) ให้บริการโหมดการทดลองและแบบเปิดที่อนุญาตให้ AI ท้าทายภายใต้เงื่อนไขที่แตกต่างกัน
การทดสอบแสดงให้เห็นว่า Claude3.5Sonnet ทำงานได้ดีที่สุด แต่ก็ยังมีปัญหาในการวางแผนระยะยาวและการจัดการปัญหาที่ซับซ้อน