[ウェブサイト] [紙] [Twitter]

オープンな世界でマルチモーダルの観察で人間のような計画と制御を達成することは、より機能的なジェネラリストのエージェントにとって重要なマイルストーンです。 Jarvis-1を紹介します。これは、マルチモーダル入力(視覚観測と人間の指示)を知覚し、洗練された計画を生成し、具体化された制御を実行し、すべてが一般的でありながら挑戦的なオープンワールドMinecraftユニバース内で具体化されたコントロールを実行できます。具体的には、視覚的な観察とテキストの指示を計画にマッピングする事前に訓練されたマルチモーダル言語モデルの上にJarvis-1を開発します。計画は最終的に目標調整されたコントローラーに派遣されます。 Jarvis-1をマルチモーダルメモリに装備します。これは、事前に訓練された知識とその実際のゲームサバイバルエクスペリエンスの両方を使用して計画を促進します。 Jarvis-1はMinecraftの既存の最も一般的なエージェントであり、人間に似た制御および観測スペースを使用して200以上の異なるタスクを完了することができます。これらのタスクは、たとえば「木を刻む」という短距離タスクから、「ダイヤモンドのピカックスの取得」などの長距離タスクにまで及びます。 Jarvis-1は、短距離タスクで非常にうまく機能し、ほぼ完璧なパフォーマンスを達成します。 GotainDiamondPickaxeの古典的な長期タスクでは、 Jarvis-1は現在の最先端のエージェントの信頼性を5倍上回り、より長いホリゾンとより挑戦的なタスクを正常に完了することができます。
Minecraftを演奏するJarvis-1を示す一連のビデオをリストしています。プロジェクトページでビデオを見つけることができます。
このプロジェクトは、Linuxのみで実行することを目的としています。他のプラットフォームのサポートは提供されていません。
環境を管理するためにアナコンダを使用することをお勧めします。アナコンダがインストールされていない場合は、こちらからダウンロードできます。
conda create -n jarvis python=3.10
conda activate jarvis JDK 8がインストールされていることを確認してください。インストールしていない場合は、次のコマンドを使用してインストールできます。
conda install openjdk=8 JDKバージョンを確認するには、コマンドjava -versionを実行します。次のようなメッセージが表示されます(別のJDK分布をインストールした場合、詳細は異なる場合があります):
openjdk version " 1.8.0_392 "
OpenJDK Runtime Environment (build 1.8.0_392-8u392-ga-1~20.04-b08)
OpenJDK 64-Bit Server VM (build 25.392-b08, mixed mode)必要な依存関係をインストールしたら、 prepare_mcp.pyスクリプトを実行してMCP-Rebornを構築できます。開始する前に、安定したインターネット接続があることを確認してください。
python prepare_mcp.py次に、Jarvis-1をPythonパッケージとしてインストールできます。
pip install -e .Jarvis-1は、Steve-Iの重みに依存しています。スクリプトからウェイトをダウンロードできます。次に、ファイルjarvis/steveI/path.pyにWeights Pathを設定する必要があります。
環境変数TMPDIRとOPENAI_API_KEYを最初に設定する必要があります。
export TMPDIR=/tmp
export OPENAI_API_KEY= " sk-****** "次に、次のコマンドを実行してJarvis-1エージェントを起動できます。
python open_jarvis.py --task iron_pickaxe --timeout 10最後に、Jarvis-1エージェントがポップされた窓でMinecraftを演奏するのを見ることができます。また、次のコマンドを実行して、Jarvis-1エージェントをヘッドレスモードで起動することもできます。
xfvb-run -a python open_jarvis.py --task iron_pickaxe --timeout 10python offline_evaluation.py
or
xvfb-run -a python offline_evaluation.pyself-checkモジュールを削除します。assets/memory.jsonファイルの現在のマルチモーダルメモリは完全ではありません。将来リリースされるマルチモーダルstateとactionシーケンスを削除します。multimodal descriptorとmultimodel retrievalまだリリースされていません。したがって、Jarvis-1の言語モデル部分のみを体験できます。 multimodal descriptorをリリースします。 multimodal memoryをHuggingfaceにアップロードする予定です。 learning.pyは、メモリが成長している自己改善Jarvis-1を有効にします。 Jarvis-1は、 Minecraftのいくつかのプロジェクトに基づいて構築されています。ここにあなたが興味を持っているかもしれないいくつかの関連するプロジェクトがあります:
私たちの論文はArxivで入手できます。 Jarvis-1が研究に役立つと思われる場合は、私たちの論文を引用してください。
@article{wang2023jarvis1,
title = {JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models},
author = {Zihao Wang and Shaofei Cai and Anji Liu and Yonggang Jin and Jinbing Hou and Bowei Zhang and Haowei Lin and Zhaofeng He and Zilong Zheng and Yaodong Yang and Xiaojian Ma and Yitao Liang},
year = {2023},
journal = {arXiv preprint arXiv: 2311.05997}
}