建設とリソース管理を中心とした複雑なコンピューターゲームとして、Factorioは、研究者が近年人工知能能力を評価するための重要なツールになりました。このゲームでは、プレイヤーが複雑なシステムを計画および構築する必要があるだけでなく、複数のリソースと生産チェーンを同時に管理する必要があるため、複雑な環境で言語モデルのパフォーマンスを効果的にテストできます。現実世界でのリソースの割り当てと生産プロセスをシミュレートすることにより、Factorioは人工知能研究のための非常に挑戦的なプラットフォームを提供します。
人工知能の能力をより体系的に評価するために、研究チームはThe Factorio Learning環境(FL)と呼ばれるシステムを開発しました。システムは、「実験モード」と「オープンモード」の2つの異なるテストモードを提供します。実験モードでは、AIエージェントは、単純な2つのマシンから複雑な100マシンの工場まで、特定の目標と限られたリソースを設定する24の構造化された課題を完了する必要があります。オープンモードでは、AIエージェントは、可能な限り最大の工場を構築するという唯一の目標で、プログラムで生成されたマップを自由に探索できます。これらの2つのモードは、それぞれ制約された自由環境でAIのパフォーマンスをテストします。

AIエージェントは、Python APIを介してFactorioと相互作用し、さまざまな操作を実行してゲームステータスを確認するためにコードを生成できます。このAPIにより、エージェントはコンポーネントの配置と接続、リソースの管理、生産の進捗状況の監視などの機能を実行できます。このようにして、研究チームは、言語モデルがプログラムを統合し、複雑なシステムを処理する能力をテストすることができました。 APIは、AIエージェントがゲーム内の実際の意思決定プロセスをシミュレートできるように設計されており、研究のための豊富なデータを提供します。
AIエージェントのパフォーマンスを評価するために、研究者は「生産スコア」と「マイルストーン」という2つの重要なメトリックを使用しました。生産スコアは、総出力の値を計算し、生産チェーンの複雑さが増加するにつれて指数関数的に成長するために使用されます。マイルストーンは、新しいアイテムの作成や技術の研究などの重要な成果を追跡します。ゲームの経済シミュレーションは、リソースの希少性、市場価格、生産効率などの要因も考慮に入れており、評価をより包括的かつ本物にしています。
人類の科学者を含む研究チームは、Claude3.5Sonnet、GPT-4O、およびそのミニバージョン、Deepseek-V3、Gemini2.0flash、およびLlama-3.3-70B-intructなど、FL環境で6つの主要な言語モデルのパフォーマンスを評価しました。このテストのラウンドには大規模な推論モデル(LRMS)は含まれていませんでしたが、以前のベンチマークは、O1のようなモデルが計画機能に適していることを示しましたが、制限もありました。
テスト結果は、評価に関与する言語モデルが、空間的推論、長期計画、およびエラー修正における重要な課題に直面していることを示しています。工場を構築するとき、AIエージェントはマシンを効率的に配置および接続するのが困難であり、その結果、最適ではないレイアウトと生産ボトルネックが生まれます。戦略的思考も課題であり、モデルは一般に、長期計画よりも短期目標を優先することを好みます。さらに、基本的なトラブルシューティングを処理できますが、より複雑な問題に直面すると、非効率的なデバッグループに陥る傾向があります。

テストされたモデルの中で、Claude 3.5Sonnetは最高のパフォーマンスを発揮しましたが、それでもすべての課題を把握できませんでした。実験モードでは、Claudeは24のタスクのうち15を正常に完了しましたが、他のモデルはせいぜい10しか完了しませんでした。オープンテストでは、Claudeの生産スコアは2456ポイントに達し、GPT-4oは1789ポイントで密接に遅れました。 Claudeは「Factorio」の複雑なゲームプレイを示し、戦略的な製造および研究方法を使用して、基本製品から複雑な生産プロセス、特に鉄板の生産速度を大幅に改善する電気掘削技術の改善に迅速に移行します。
研究者は、Fleのオープンでスケーラブルな機能により、より強力な言語モデルの将来のテストにおいて重要な価値があると考えています。彼らは、より良い評価のコンテキストを提供するために、マルチエージェントシナリオと人間のパフォーマンスベンチマークを含めるように環境を拡張することを提案します。この作品は、ゲームベースのAIベンチマークのコレクションをさらに豊かにします。これには、Minecraftを使用してモデル化されるBalrogや今後のMcBenchも含まれます。
Factorio Learning環境:https://top.aibase.com/tool/factorio-learning-environment
キーポイント:
Factorioゲームは、AI機能を評価し、言語モデルの複雑なシステム管理機能をテストするための新しいツールになりました。
Factorio Learning Environment(FLE)は、AIがさまざまな条件下で挑戦できるようにする実験的およびオープンモードを提供します。
テストによると、Claude3.5Sonnetが最も効果的であることが示されていますが、長期的な計画と複雑な問題の処理にはまだ困難があります。