[Веб -сайт] [Paper] [Twitter]

Достижение планирования и контроля человека с мультимодальными наблюдениями в открытом мире является ключевой вехой для более функциональных агентов генералиста. Мы вводим Jarvis-1 , агента с открытым миром, который может воспринимать мультимодальный вход (визуальные наблюдения и человеческие инструкции), генерировать сложные планы и выполнять воплощенный контроль, все в популярной, но сложной вселенной Minecraft в открытом мире. В частности, мы разрабатываем Jarvis-1 поверх предварительно обученных мультимодальных языковых моделей, которые отображают визуальные наблюдения и текстовые инструкции с планами. Планы в конечном итоге будут отправлены на контроллеры, связанные с целями. Мы набираем jarvis-1 мультимодальной памятью, которая облегчает планирование, используя как предварительно обученные знания, так и его фактический опыт выживания в игре. Jarvis-1 является существующим наиболее общим агентом в Minecraft, способным выполнить более 200 различных задач, используя пространство контроля и наблюдения, сходное с людьми. Эти задачи варьируются от задач с коротким хоризоном, например, «Разрубание деревьев» до задач с длинным хоризоном, например, «получение алмазного пика». Jarvis-1 выступает исключительно хорошо в задачах с коротким хоризоном, достигая почти идеального представления. В классической долгосрочной задаче «Получить adiamondpickaxe» Jarvis-1 превосходит надежность нынешних современных агентов в 5 раз и может успешно выполнять более длительные и более сложные задачи.
Мы перечисляем серию видео, показывающих, что Jarvis-1 играет в Minecraft. Вы можете найти видео на нашей странице проекта.
Этот проект предназначен только для работы на Linux. Поддержка других платформ не предоставляется.
Мы рекомендуем использовать Anaconda для управления окружающей средой. Если у вас нет установки Anaconda, вы можете скачать его отсюда.
conda create -n jarvis python=3.10
conda activate jarvis Убедитесь, что у вас установлен JDK 8. Если у вас нет установки, вы можете установить его, используя следующую команду:
conda install openjdk=8 Чтобы проверить вашу версию JDK, запустите команду java -version . Вы должны увидеть сообщение, похожее на следующее (детали могут варьироваться, если вы установили другое распределение JDK):
openjdk version " 1.8.0_392 "
OpenJDK Runtime Environment (build 1.8.0_392-8u392-ga-1~20.04-b08)
OpenJDK 64-Bit Server VM (build 25.392-b08, mixed mode) После того, как вы установили необходимые зависимости, вы можете запустить сценарий prepare_mcp.py для построения MCP-Roborn. Убедитесь, что у вас есть стабильное подключение к Интернету, прежде чем начать.
python prepare_mcp.pyЗатем вы можете установить Jarvis-1 в качестве пакета Python.
pip install -e . Джарвис-1 полагается на веса Стива-и. Вы можете скачать веса из сценария. Затем вам нужно установить путь веса в файле jarvis/steveI/path.py .
Вам нужно сначала установить переменную среды TMPDIR и OPENAI_API_KEY .
export TMPDIR=/tmp
export OPENAI_API_KEY= " sk-****** "Затем вы можете запустить следующую команду, чтобы запустить агент Jarvis-1.
python open_jarvis.py --task iron_pickaxe --timeout 10Наконец, вы можете увидеть, как агент Jarvis-1 играет Minecraft в популярном окне. Вы также можете запустить следующую команду, чтобы запустить агент Jarvis-1 в режиме без головы.
xfvb-run -a python open_jarvis.py --task iron_pickaxe --timeout 10python offline_evaluation.py
or
xvfb-run -a python offline_evaluation.pyself-check для эффективного планирования.assets/memory.json не завершена. Мы удаляем мультимодальное state и последовательность action , которые будут выпущены в будущем.multimodal descriptor и multimodel retrieval еще не выпущены. Таким образом, теперь вы можете испытать только языковую модель-часть Jarvis-1. multimodal descriptor , чтобы датьсти Джарвису-1 понять визуальный мир. Мы планируем загрузить multimodal memory на Huggingface. learning.py , чтобы позволить самосовершенствованию JARVIS-1 с растущей памятью. Jarvis-1 построен на нескольких проектах в Minecraft. Вот некоторые связанные проекты, которые вас могут заинтересовать:
Наша статья доступна на Arxiv. Пожалуйста, процитируйте нашу статью, если вы найдете Jarvis-1 полезным для вашего исследования:
@article{wang2023jarvis1,
title = {JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models},
author = {Zihao Wang and Shaofei Cai and Anji Liu and Yonggang Jin and Jinbing Hou and Bowei Zhang and Haowei Lin and Zhaofeng He and Zilong Zheng and Yaodong Yang and Xiaojian Ma and Yitao Liang},
year = {2023},
journal = {arXiv preprint arXiv: 2311.05997}
}