В качестве сложной компьютерной игры, ориентированной на строительство и управление ресурсами, Factorio стал важным инструментом для исследователей для оценки возможностей искусственного интеллекта в последние годы. Эта игра не только требует, чтобы игроки планировали и создавали сложные системы, но также должны одновременно управлять несколькими ресурсами и производственными цепями, поэтому она может эффективно проверить производительность языковых моделей в сложных средах. Моделируя распределение ресурсов и производственные процессы в реальном мире, Factorio предоставляет чрезвычайно сложную платформу для исследований искусственного интеллекта.
Для более систематической оценки возможностей искусственного интеллекта исследовательская группа разработала систему, называемую средой обучения факторами (FLE). Система предоставляет два разных режима тестирования: «Экспериментальный режим» и «открытый режим». В экспериментальном режиме агенты искусственного интеллекта должны выполнить 24 структурированных задач, начиная от простых двух машин до комплекса, почти сто завод машин, устанавливая конкретные цели и ограниченные ресурсы. В открытом режиме агенты искусственного интеллекта могут свободно исследовать программные карты, с единственной целью создания максимально возможной фабрики. Эти два режима проверяют производительность ИИ в ограниченных и свободных средах соответственно.

Агент AI взаимодействует с фактором, через Python API и способен генерировать код для выполнения различных операций и проверять статус игры. Этот API позволяет агенту выполнять такие функции, как размещение и подключение компонентов, управление ресурсами и мониторинг прогресса производства. Таким образом, исследовательская группа смогла проверить способность языковых моделей синтезировать программы и обрабатывать сложные системы. API предназначен для того, чтобы дать возможность агентам ИИ моделировать реальные процессы принятия решений в играх, что обеспечивает богатые данные для исследований.
Чтобы оценить производительность агентов искусственного интеллекта, исследователи использовали два ключевых показателя: «производственная оценка» и «веха». Производственные оценки используются для расчета значения общего объема производства и выращивания в геометрической прогрессии, поскольку сложность производственной цепочки увеличивается; Вехи отслеживают важные достижения, такие как создание новых элементов или исследование технологий. Экономическое моделирование игры также учитывает такие факторы, как нехватка ресурсов, рыночная цена и эффективность производства, что делает оценку более полной и подлинной.
Исследовательская группа, в том числе ученые из антропного, оценили показатели шести ведущих языковых моделей в среде FLE, в том числе Claude3.5sonnet, GPT-4O и ее мини-версию, Deepseek-V3, Gemini2.0flash и Llama-3.3-70B-Instruct. Большие модели вывода (LRM) не были включены в этот раунд тестов, но предыдущие тесты показали, что такие модели, как O1, хорошо выполнялись в возможностях планирования, хотя у них также были ограничения.
Результаты теста показывают, что языковые модели, участвующие в оценке, сталкиваются с значительными проблемами в пространственном мышлении, долгосрочном планировании и коррекции ошибок. При создании фабрики агенты ИИ испытывают трудности в эффективном расположении и соединении машин, что приводит к неоптимальной планировке и узким месту производства. Стратегическое мышление также является проблемой, и модели, как правило, предпочитают расставлять приоритеты в краткосрочных целях по сравнению с долгосрочным планированием. Кроме того, хотя они могут справиться с основным устранением неполадок, они, как правило, попадают в неэффективную цикл отладки, сталкиваясь с более сложными проблемами.

Среди протестированных моделей Claude 3.5sonnet выполнил лучшее, но все еще не смог понять все проблемы. В экспериментальном режиме Клод успешно выполнил 15 из 24 задач, в то время как другие модели выполнили только 10 максимум. В открытом тесте производственный балл Клода достиг 2456 баллов, причем GPT-4O приступил к тому, чтобы с 1789 очками. Claude показывает сложный геймплей «факторами» и использует свои стратегические методы производства и исследования для быстрого перехода от основных продуктов к сложным производственным процессам, особенно улучшения технологии электрического бурения, что значительно улучшает скорость производства железных пластин.
Исследователи считают, что открытые и масштабируемые функции FLE делают его важной ценностью в будущем тестировании более мощных языковых моделей. Они предлагают расширить окружающую среду, чтобы включить многоагентные сценарии и показатели производительности человека, чтобы обеспечить лучший контекст оценки. Эта работа дополнительно обогащает коллекцию игровых тестов ИИ, которые также включают Балрог и предстоящий МакБенч, которые будут смоделированы с использованием Minecraft.
Среда обучения фактора: https://top.aibase.com/tool/factorio-learning-environment
Ключевые моменты:
Игра Factorio стала новым инструментом для оценки возможностей ИИ и тестирования сложных возможностей управления системой языковых моделей.
Среда обучения Factorio (FLE) предоставляет экспериментальные и открытые режимы, которые позволяют ИИ бросить вызов в различных условиях.
Тесты показывают, что Claude3.5sonnet работает лучше всего, но все еще есть трудности в долгосрочном планировании и решении сложных проблем.