[웹 사이트] [논문] [트위터]

개방형 세계에서 멀티 모달 관찰로 인간과 같은 계획 및 통제를 달성하는 것은보다 기능적인 일반 요원의 핵심 이정표입니다. 우리는 다중 모드 입력 (시각적 관찰 및 인간 지시 사항)을 인식하고 정교한 계획을 생성하며 구체화 된 제어를 수행 할 수있는 오픈 월드 에이전트 인 Jarvis-1을 소개합니다. 구체적으로, 우리는 미리 훈련 된 다중 모드 언어 모델 위에 Jarvis-1을 개발하여 시각적 관찰 및 텍스트 지침을 계획에 매핑합니다. 이 계획은 궁극적으로 목표 조정 된 컨트롤러로 파견 될 것입니다. 우리는 Jarvis-1을 멀티 모달 메모리로 복장하여 미리 훈련 된 지식과 실제 게임 생존 경험을 모두 사용하여 계획을 용이하게합니다. Jarvis-1 은 Minecraft에서 기존의 대부분의 일반 에이전트로 인간과 유사한 제어 및 관찰 공간을 사용하여 200 가지가 넘는 작업을 완료 할 수 있습니다. 이러한 작업은 짧은 호리 존 작업과 예를 들어 "나무 도자기"에서 "다이아몬드 곡예를 얻는 것"에 이르기까지 다양합니다. Jarvis-1은 짧은 호리존 작업에서 예외적으로 잘 수행되어 거의 완벽한 성능을 달성합니다. 획득하는 고전적인 장기 작업에서 Jarvis-1은 현재 최첨단 에이전트의 신뢰성을 5 배 능가하며 더 긴 호리 존과 더 어려운 작업을 성공적으로 완료 할 수 있습니다.
우리는 Jarvis-1이 Minecraft를 연주하는 일련의 비디오를 나열합니다. 프로젝트 페이지에서 비디오를 찾을 수 있습니다.
이 프로젝트는 Linux에서만 실행하기위한 것입니다. 다른 플랫폼에 대한 지원은 제공되지 않습니다.
Anaconda를 사용하여 환경을 관리하는 것이 좋습니다. Anaconda가 설치되어 있지 않은 경우 여기에서 다운로드 할 수 있습니다.
conda create -n jarvis python=3.10
conda activate jarvis JDK 8이 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다.
conda install openjdk=8 JDK 버전을 확인하려면 명령 java -version 실행하십시오. 다음과 유사한 메시지가 표시되어야합니다 (세부 사항은 다른 JDK 배포를 설치 한 경우에 따라 다를 수 있습니다).
openjdk version " 1.8.0_392 "
OpenJDK Runtime Environment (build 1.8.0_392-8u392-ga-1~20.04-b08)
OpenJDK 64-Bit Server VM (build 25.392-b08, mixed mode) 필요한 종속성을 설치 한 후에는 prepare_mcp.py 스크립트를 실행하여 MCP-Reborn을 빌드 할 수 있습니다. 시작하기 전에 안정적인 인터넷 연결이 있는지 확인하십시오.
python prepare_mcp.py그런 다음 Jarvis-1을 파이썬 패키지로 설치할 수 있습니다.
pip install -e . Jarvis-1은 Steve-I의 무게에 의존합니다. 스크립트에서 가중치를 다운로드 할 수 있습니다. 그런 다음 파일 jarvis/steveI/path.py 파일로 가중치 경로를 설정해야합니다.
환경 변수 TMPDIR 및 OPENAI_API_KEY 먼저 설정해야합니다.
export TMPDIR=/tmp
export OPENAI_API_KEY= " sk-****** "그런 다음 다음 명령을 실행하여 Jarvis-1 에이전트를 시작할 수 있습니다.
python open_jarvis.py --task iron_pickaxe --timeout 10마지막으로, Jarvis-1 에이전트가 팝 된 창에서 Minecraft를하는 것을 볼 수 있습니다. 헤드리스 모드에서 Jarvis-1 에이전트를 시작하기 위해 다음 명령을 실행할 수도 있습니다.
xfvb-run -a python open_jarvis.py --task iron_pickaxe --timeout 10python offline_evaluation.py
or
xvfb-run -a python offline_evaluation.pyself-check 모듈을 제거하십시오.assets/memory.json 파일의 현재 멀티 모드 메모리가 완료되지 않았습니다. 우리는 미래에 출시 될 멀티 모달 state 및 action 순서를 제거합니다.multimodal descriptor 및 multimodel retrieval 아직 출시되지 않았습니다. 따라서 Jarvis-1의 언어 모델 부분 만 경험할 수 있습니다. multimodal descriptor 해제하여 Jarvis-1이 시각 세계를 이해할 수 있도록합니다. Huggingface에서 multimodal memory 업로드 할 계획입니다. learning.py 릴리스 메모리가 성장하는 자체 개선 Jarvis-1을 가능하게합니다. Jarvis-1은 Minecraft의 여러 프로젝트에 구축되었습니다. 다음은 관심이있는 몇 가지 관련 프로젝트입니다.
우리 논문은 Arxiv에서 구입할 수 있습니다. Jarvis-1이 연구에 유용하다고 생각되면 우리 논문을 인용하십시오.
@article{wang2023jarvis1,
title = {JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models},
author = {Zihao Wang and Shaofei Cai and Anji Liu and Yonggang Jin and Jinbing Hou and Bowei Zhang and Haowei Lin and Zhaofeng He and Zilong Zheng and Yaodong Yang and Xiaojian Ma and Yitao Liang},
year = {2023},
journal = {arXiv preprint arXiv: 2311.05997}
}