
AgentStudio是環境,工具和基準的三位一體,可以使一般虛擬代理與任何計算機軟件進行交互。 AgentStudio通過提供以下方式將Desiderata瞄準了穩健,一般和開放式虛擬代理:
與現有工作的比較:

安裝要求:
apt-get install gnome-screenshot xclip xdotool # If using Ubuntu 22.04
conda create --name agent-studio python=3.11 -y
conda activate agent-studio
pip install -e ' .[client] '所有機密API鍵都應存儲在agent_studio/config/api_key.json ,EG,OpenAI API鍵,Claude API密鑰,Gemini API鍵等中。我們在agent_studio/config/api_key_template.json中提供了示例config。

AgentStudio提供了最通用的觀察和動作空間,可大大擴展任務空間,從而可以在現實世界中開發和評估代理。我們介紹了一個由205個任務組成的基準套件。這些任務涵蓋了API的用法,例如終端和Gmail和GUI軟件,例如VS代碼。請在este_online_benchmarks/readme.md中找到更多信息。與任務相關的文件可在我們的項目頁面上找到。
為了更深入了解代理能力超出在線基準任務所衡量的整體性能之外,我們使用AgentStudio:groundui,iDmbench和Critistbench開發了三個數據集。這些數據集針對一般UI接地,從視頻中學習和成功檢測。更多詳細信息在eval_agent_desiderata/readme.md中提供。所有數據均可在我們的項目頁面上找到。
為了促進代理商環境中代理的開發和評估,我們為以下工具提供了三個工具:
這些工具,結合了代理商的現實環境,有助於生成豐富的,結構化的數據,用於培訓和評估代理。請參閱DOCS/ANNOTATE_GOOND_UI.MD以獲取GUI註釋工具,Agent_studio/Recorder/readme.md,以獲取視頻操作註釋工具,以及eval_online_benchmarks/readme.md,用於任務創建/驗證。
每個人的貢獻和反饋如何使其成為更好的工具。請查看有關如何參與的貢獻。
我們要感謝以下項目的靈感和對開源社區的貢獻:開放口譯員,Webarena,Cradle,Synapse,Seeclick,Seeclick,Crafenagent,Osworld等。
如果您覺得AgentStudio有用,請引用我們的論文:
@article { zheng2024agentstudio ,
title = { AgentStudio: A Toolkit for Building General Virtual Agents } ,
author = { Longtao Zheng and Zhiyuan Huang and Zhenghai Xue and Xinrun Wang and Bo An and Shuicheng Yan } ,
journal = { arXiv preprint arXiv:2403.17918 } ,
year = { 2024 }
}