Sebagai permainan komputer yang kompleks berpusat pada konstruksi dan manajemen sumber daya, Factoro telah menjadi alat penting bagi para peneliti untuk mengevaluasi kemampuan kecerdasan buatan dalam beberapa tahun terakhir. Game ini tidak hanya mengharuskan pemain untuk merencanakan dan membangun sistem yang kompleks, tetapi juga perlu mengelola banyak sumber daya dan rantai produksi secara bersamaan, sehingga dapat secara efektif menguji kinerja model bahasa di lingkungan yang kompleks. Dengan mensimulasikan alokasi sumber daya dan proses produksi di dunia nyata, Factorio menyediakan platform yang sangat menantang untuk penelitian kecerdasan buatan.
Untuk lebih mengevaluasi kemampuan kecerdasan buatan secara lebih sistematis, tim peneliti mengembangkan sistem yang disebut Factorio Learning Environment (FLE). Sistem ini menyediakan dua mode uji yang berbeda: "Mode Eksperimental" dan "Mode Terbuka". Dalam mode eksperimental, agen AI perlu menyelesaikan 24 tantangan terstruktur mulai dari dua mesin sederhana hingga kompleks hampir seratus mesin, menetapkan tujuan spesifik dan sumber daya yang terbatas. Dalam mode terbuka, agen AI dapat dengan bebas mengeksplorasi peta yang dihasilkan program, dengan satu-satunya tujuan membangun pabrik terbesar yang mungkin. Kedua mode ini menguji kinerja AI di lingkungan yang terbatas dan bebas.

Agen AI berinteraksi dengan Factorio melalui API Python, dan dapat menghasilkan kode untuk melakukan berbagai operasi dan memeriksa status game. API ini memungkinkan agen untuk melakukan fungsi seperti menempatkan dan menghubungkan komponen, mengelola sumber daya, dan memantau kemajuan produksi. Dengan cara ini, tim peneliti dapat menguji kemampuan model bahasa untuk mensintesis program dan menangani sistem yang kompleks. API dirancang untuk memungkinkan agen AI mensimulasikan proses pengambilan keputusan dunia nyata dalam permainan, sehingga memberikan data yang kaya untuk penelitian.
Untuk mengevaluasi kinerja agen AI, para peneliti menggunakan dua metrik utama: "skor produksi" dan "tonggak sejarah." Skor produksi digunakan untuk menghitung nilai total output dan tumbuh secara eksponensial seiring dengan meningkatnya kompleksitas rantai produksi; Tonggak melacak pencapaian penting seperti membuat item baru atau meneliti teknologi. Simulasi ekonomi permainan juga memperhitungkan faktor -faktor seperti kelangkaan sumber daya, harga pasar dan efisiensi produksi, membuat penilaian lebih komprehensif dan otentik.
Tim peneliti, termasuk para ilmuwan dari antropik, mengevaluasi kinerja enam model bahasa terkemuka di lingkungan FLE, termasuk Claude3.5Sonnet, GPT-4O dan versi mini, Deepseek-V3, Gemini2.0flash, dan Llama-3.3-70B-instruct. Model inferensi besar (LRM) tidak termasuk dalam putaran tes ini, tetapi tolok ukur sebelumnya menunjukkan bahwa model seperti O1 berkinerja baik dalam kemampuan perencanaan, meskipun mereka juga memiliki keterbatasan.
Hasil tes menunjukkan bahwa model bahasa yang terlibat dalam penilaian menghadapi tantangan yang signifikan dalam penalaran spasial, perencanaan jangka panjang, dan koreksi kesalahan. Saat membangun pabrik, agen AI mengalami kesulitan dalam mengatur dan menghubungkan mesin secara efisien, menghasilkan tata letak suboptimal dan hambatan produksi. Pemikiran strategis juga merupakan tantangan, dan model umumnya lebih suka memprioritaskan tujuan jangka pendek daripada perencanaan jangka panjang. Selain itu, sementara mereka dapat menangani pemecahan masalah dasar, mereka cenderung jatuh ke dalam loop debugging yang tidak efisien ketika menghadapi masalah yang lebih kompleks.

Di antara model yang diuji, Claude 3.5Sonnet melakukan yang terbaik, tetapi masih gagal untuk memahami semua tantangan. Dalam mode eksperimental, Claude berhasil menyelesaikan 15 dari 24 tugas, sementara model lain hanya menyelesaikan 10 paling banyak. Dalam tes terbuka, skor produksi Claude mencapai 2456 poin, dengan GPT-4O mengikuti di belakang dengan 1789 poin. Claude menunjukkan gameplay kompleks "Factorio" dan menggunakan metode manufaktur dan penelitian strategis untuk dengan cepat bergeser dari produk dasar ke proses produksi yang kompleks, terutama peningkatan teknologi pengeboran listrik, yang secara signifikan meningkatkan kecepatan produksi pelat besi.
Para peneliti percaya bahwa fitur FLE yang terbuka dan terukur menjadikannya nilai penting dalam pengujian model bahasa yang lebih kuat di masa depan. Mereka menyarankan memperluas lingkungan untuk memasukkan skenario multi-agen dan tolok ukur kinerja manusia untuk memberikan konteks evaluasi yang lebih baik. Pekerjaan ini semakin memperkaya koleksi tolok ukur AI berbasis game, yang juga termasuk Balrog dan McBench yang akan datang, yang akan dimodelkan menggunakan Minecraft.
Factorio Learning Environment: https://top.aibase.com/tool/factorio-learning-environment
Poin -Poin Kunci:
Gim Factorio telah menjadi alat baru untuk mengevaluasi kemampuan AI dan menguji kemampuan manajemen sistem yang kompleks dari model bahasa.
Factorio Learning Environment (FLE) menyediakan mode eksperimental dan terbuka yang memungkinkan AI menantang dalam kondisi yang berbeda.
Tes menunjukkan bahwa claude3.5-sonnet berkinerja terbaik, tetapi masih ada kesulitan dalam perencanaan jangka panjang dan menangani masalah yang kompleks.