
AgentStudio是环境,工具和基准的三位一体,可以使一般虚拟代理与任何计算机软件进行交互。 AgentStudio通过提供以下方式将Desiderata瞄准了稳健,一般和开放式虚拟代理:
与现有工作的比较:

安装要求:
apt-get install gnome-screenshot xclip xdotool # If using Ubuntu 22.04
conda create --name agent-studio python=3.11 -y
conda activate agent-studio
pip install -e ' .[client] '所有机密API键都应存储在agent_studio/config/api_key.json ,EG,OpenAI API键,Claude API密钥,Gemini API键等中。我们在agent_studio/config/api_key_template.json中提供了示例config。

AgentStudio提供了最通用的观察和动作空间,可大大扩展任务空间,从而可以在现实世界中开发和评估代理。我们介绍了一个由205个任务组成的基准套件。这些任务涵盖了API的用法,例如终端和Gmail和GUI软件,例如VS代码。请在este_online_benchmarks/readme.md中找到更多信息。与任务相关的文件可在我们的项目页面上找到。
为了更深入了解代理能力超出在线基准任务所衡量的整体性能之外,我们使用AgentStudio:groundui,iDmbench和Critistbench开发了三个数据集。这些数据集针对一般UI接地,从视频中学习和成功检测。更多详细信息在eval_agent_desiderata/readme.md中提供。所有数据均可在我们的项目页面上找到。
为了促进代理商环境中代理的开发和评估,我们为以下工具提供了三个工具:
这些工具,结合了代理商的现实环境,有助于生成丰富的,结构化的数据,用于培训和评估代理。请参阅DOCS/ANNOTATE_GOOND_UI.MD以获取GUI注释工具,Agent_studio/Recorder/readme.md,以获取视频操作注释工具,以及eval_online_benchmarks/readme.md,用于任务创建/验证。
每个人的贡献和反馈如何使其成为更好的工具。请查看有关如何参与的贡献。
我们要感谢以下项目的灵感和对开源社区的贡献:开放口译员,Webarena,Cradle,Synapse,Seeclick,Seeclick,Crafenagent,Osworld等。
如果您觉得AgentStudio有用,请引用我们的论文:
@article { zheng2024agentstudio ,
title = { AgentStudio: A Toolkit for Building General Virtual Agents } ,
author = { Longtao Zheng and Zhiyuan Huang and Zhenghai Xue and Xinrun Wang and Bo An and Shuicheng Yan } ,
journal = { arXiv preprint arXiv:2403.17918 } ,
year = { 2024 }
}