
AgentStudio es una trinidad de entornos, herramientas y puntos de referencia para que los agentes virtuales generales interactúen con cualquier software de computadora. AgentStudio se dirige a Desiderata para agentes virtuales robustos, generales y abiertos al proporcionar:
Comparaciones con el trabajo existente:

Requisitos de instalación:
apt-get install gnome-screenshot xclip xdotool # If using Ubuntu 22.04
conda create --name agent-studio python=3.11 -y
conda activate agent-studio
pip install -e ' .[client] ' Todas las teclas API confidenciales deben almacenarse en agent_studio/config/api_key.json , por ejemplo, la tecla API de OpenAI, la tecla API Claude, la tecla API Gemini, etc. Hemos proporcionado una configuración de ejemplo en agent_studio/config/api_key_template.json .

AgentStudio proporciona los espacios de observación y acción más genéricos, lo que expande significativamente el espacio de tareas, lo que permite desarrollar y evaluar a los agentes en entornos del mundo real. Presentamos una suite de referencia que consta de 205 tareas. Estas tareas abarcan los usos de la API, como Terminal y Gmail y software GUI como VS Code. Encuentre más en eval_online_benchmarks/readme.md. Los archivos relacionados con la tarea están disponibles en la página de nuestro proyecto.
Para obtener información más profunda sobre las capacidades de agentes más allá del rendimiento general medido por las tareas de referencia en línea, desarrollamos tres conjuntos de datos utilizando AgentStudio: Groundui, Idmbench y CriticBench. Estos conjuntos de datos se dirigen a la base general de la UI, el aprendizaje de los videos y la detección de éxito. Se proporcionan más detalles en eval_agent_desiderata/readme.md. Todos los datos están disponibles en la página de nuestro proyecto.
Para facilitar el desarrollo y la evaluación de agentes dentro del entorno Agentstudio, proporcionamos tres herramientas para:
Estas herramientas, combinadas con el entorno realista de Agentstudio, contribuyen a la generación de datos ricos y estructurados para la capacitación y la evaluación de agentes. Consulte Docs/Annotate_Ground_ui.md para la herramienta de anotación GUI, agente_studio/registrador/readme.md para la herramienta de anotación de acción de video y eval_online_benchmarks/readme.md para la creación/validación de tareas.
Las contribuciones y los comentarios de todos sobre cómo convertir esto en una herramienta mejor son más que bienvenidos. Echa un vistazo a contribuir.md sobre cómo participar.
Nos gustaría agradecer a los siguientes proyectos por su inspiración y contribuciones a la comunidad de código abierto: intérprete abierto, webarena, cuna, synapse, seeclick, screenagent, osworld, etc.
Si encuentra útil AgentStudio, cite nuestro documento:
@article { zheng2024agentstudio ,
title = { AgentStudio: A Toolkit for Building General Virtual Agents } ,
author = { Longtao Zheng and Zhiyuan Huang and Zhenghai Xue and Xinrun Wang and Bo An and Shuicheng Yan } ,
journal = { arXiv preprint arXiv:2403.17918 } ,
year = { 2024 }
}