[Situs web] [kertas] [Twitter]

Mencapai perencanaan dan kontrol seperti manusia dengan pengamatan multimodal di dunia terbuka adalah tonggak penting bagi agen generalis yang lebih fungsional. Kami memperkenalkan Jarvis-1 , agen dunia terbuka yang dapat memahami input multimodal (pengamatan visual dan instruksi manusia), menghasilkan rencana canggih, dan melakukan kontrol yang diwujudkan, semuanya dalam alam semesta Minecraft dunia terbuka yang populer namun menantang. Secara khusus, kami mengembangkan Jarvis-1 di atas model bahasa multimodal pra-terlatih, yang memetakan pengamatan visual dan instruksi tekstual ke rencana. Rencana tersebut pada akhirnya akan dikirim ke pengontrol yang dikondisikan dengan tujuan. Kami mengenakan Jarvis-1 dengan memori multimodal, yang memfasilitasi perencanaan menggunakan pengetahuan pra-terlatih dan pengalaman bertahan hidupnya yang sebenarnya. Jarvis-1 adalah agen paling umum yang ada di Minecraft, yang mampu menyelesaikan lebih dari 200 tugas yang berbeda menggunakan ruang kontrol dan pengamatan yang mirip dengan manusia. Tugas-tugas ini berkisar dari tugas-tugas horizon pendek, misalnya, "menebang pohon" hingga tugas-tugas horizon panjang, misalnya, "mendapatkan pickaxe berlian". Jarvis-1 berkinerja sangat baik dalam tugas-tugas pembantu pendek, mencapai kinerja yang hampir sempurna. Dalam tugas jangka panjang klasik untuk mendapatkandiamondpickaxe, Jarvis-1 melampaui keandalan agen canggih saat ini sebesar 5 kali dan berhasil menyelesaikan tugas-tugas yang lebih panjang dan tugas yang lebih menantang.
Kami mencantumkan serangkaian video yang menunjukkan Jarvis-1 bermain minecraft. Anda dapat menemukan video di halaman proyek kami.
Proyek ini dimaksudkan untuk berjalan di Linux saja. Dukungan untuk platform lain tidak disediakan.
Kami merekomendasikan penggunaan Anaconda untuk mengelola lingkungan. Jika Anda tidak menginstal Anaconda, Anda dapat mengunduhnya dari sini.
conda create -n jarvis python=3.10
conda activate jarvis Pastikan Anda telah menginstal JDK 8. Jika Anda tidak menginstalnya, Anda dapat menginstalnya menggunakan perintah berikut:
conda install openjdk=8 Untuk memeriksa versi JDK Anda, jalankan perintah java -version . Anda akan melihat pesan yang mirip dengan yang berikut (detail dapat bervariasi jika Anda telah menginstal distribusi JDK yang berbeda):
openjdk version " 1.8.0_392 "
OpenJDK Runtime Environment (build 1.8.0_392-8u392-ga-1~20.04-b08)
OpenJDK 64-Bit Server VM (build 25.392-b08, mixed mode) Setelah Anda menginstal dependensi yang diperlukan, Anda dapat menjalankan skrip prepare_mcp.py untuk membangun MCP-Reborn. Pastikan Anda memiliki koneksi internet yang stabil sebelum mulai.
python prepare_mcp.pyKemudian Anda dapat menginstal Jarvis-1 sebagai paket Python.
pip install -e . Jarvis-1 bergantung pada bobot Steve-I. Anda dapat mengunduh bobot dari skrip. Maka Anda perlu mengatur jalur bobot dalam file jarvis/steveI/path.py .
Anda perlu mengatur variabel lingkungan TMPDIR dan OPENAI_API_KEY terlebih dahulu.
export TMPDIR=/tmp
export OPENAI_API_KEY= " sk-****** "Kemudian Anda dapat menjalankan perintah berikut untuk memulai agen Jarvis-1.
python open_jarvis.py --task iron_pickaxe --timeout 10Akhirnya, Anda dapat melihat agen Jarvis-1 bermain minecraft di jendela poped. Anda juga dapat menjalankan perintah berikut untuk memulai agen Jarvis-1 dalam mode tanpa kepala.
xfvb-run -a python open_jarvis.py --task iron_pickaxe --timeout 10python offline_evaluation.py
or
xvfb-run -a python offline_evaluation.pyself-check untuk perencanaan yang efisien.assets/memory.json tidak lengkap. Kami menghapus state multimodal dan urutan action , yang akan dirilis di masa depan.multimodal descriptor dan multimodel retrieval belum dirilis. Jadi Anda hanya bisa mengalami bagian model bahasa dari Jarvis-1 sekarang. multimodal descriptor untuk memungkinkan Jarvis-1 memahami dunia visual. Kami berencana untuk mengunggah multimodal memory di Huggingface. learning.py untuk memungkinkan Jarvis-1 yang meningkatkan diri dengan memori yang tumbuh. Jarvis-1 dibangun di atas beberapa proyek di Minecraft. Berikut adalah beberapa proyek terkait yang mungkin Anda minati:
Makalah kami tersedia di Arxiv. Harap kutip makalah kami jika Anda menemukan Jarvis-1 berguna untuk penelitian Anda:
@article{wang2023jarvis1,
title = {JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models},
author = {Zihao Wang and Shaofei Cai and Anji Liu and Yonggang Jin and Jinbing Hou and Bowei Zhang and Haowei Lin and Zhaofeng He and Zilong Zheng and Yaodong Yang and Xiaojian Ma and Yitao Liang},
year = {2023},
journal = {arXiv preprint arXiv: 2311.05997}
}