
AgenStudio adalah trinitas lingkungan, alat, dan tolok ukur untuk agen virtual umum untuk berinteraksi dengan perangkat lunak komputer apa pun. AgenStudio menargetkan desiderata untuk agen virtual yang kuat, umum, dan terbuka dengan menyediakan:
Perbandingan dengan pekerjaan yang ada:

Instal Persyaratan:
apt-get install gnome-screenshot xclip xdotool # If using Ubuntu 22.04
conda create --name agent-studio python=3.11 -y
conda activate agent-studio
pip install -e ' .[client] ' Semua tombol API rahasia harus disimpan di agent_studio/config/api_key.json , misalnya, kunci API OpenAI, kunci API Claude, kunci API Gemini, dll. Kami telah memberikan contoh konfigurasi di agent_studio/config/api_key_template.json .

AgenStudio menyediakan ruang pengamatan dan tindakan yang paling umum, yang secara signifikan memperluas ruang tugas, memungkinkan untuk mengembangkan dan mengevaluasi agen dalam pengaturan dunia nyata. Kami memperkenalkan rangkaian patokan yang terdiri dari 205 tugas. Tugas -tugas ini mencakup penggunaan API seperti terminal dan perangkat lunak Gmail dan GUI seperti VS Code. Silakan temukan lebih banyak di eval_online_benchmarks/readme.md. File terkait tugas tersedia di halaman proyek kami.
Untuk mendapatkan wawasan yang lebih dalam tentang kemampuan agen di luar kinerja keseluruhan yang diukur dengan tugas benchmark online, kami mengembangkan tiga dataset menggunakan AgentStudio: Groundui, Idmbench, dan Criticbench. Dataset ini menargetkan pembumian UI umum, pembelajaran dari video, dan deteksi keberhasilan. Rincian lebih lanjut disediakan di eval_agent_desiderata/readme.md. Semua data tersedia di halaman proyek kami.
Untuk memfasilitasi pengembangan dan evaluasi agen dalam lingkungan AgentStudio, kami menyediakan tiga alat untuk:
Alat -alat ini, dikombinasikan dengan lingkungan realistis AgentStudio, berkontribusi pada generasi data yang kaya dan terstruktur untuk pelatihan dan evaluasi agen. Silakan merujuk ke dokumen/annotate_ground_ui.md untuk alat anotasi GUI, agen_studio/perekam/readme.md untuk alat anotasi aksi video, dan eval_online_benchmarks/readme.md untuk pembuatan tugas/validasi.
Kontribusi dan umpan balik dari semua orang tentang cara menjadikan ini menjadi alat yang lebih baik lebih dari disambut. Silakan periksa Contributing.md untuk cara terlibat.
Kami ingin mengucapkan terima kasih kepada proyek-proyek berikut atas inspirasi dan kontribusi mereka kepada komunitas open-source: Open Interpreter, Webarena, Cradle, Synapse, Seeclick, ScreenAgent, Osworld, dll.
Jika Anda menganggap AgenStudio bermanfaat, silakan kutip kertas kami:
@article { zheng2024agentstudio ,
title = { AgentStudio: A Toolkit for Building General Virtual Agents } ,
author = { Longtao Zheng and Zhiyuan Huang and Zhenghai Xue and Xinrun Wang and Bo An and Shuicheng Yan } ,
journal = { arXiv preprint arXiv:2403.17918 } ,
year = { 2024 }
}