
Agentstudio - это троица среды, инструменты и критерии для общих виртуальных агентов для взаимодействия с любым компьютерным программным обеспечением. Agentstudio нацелен на Desiderata для надежных, общих и открытых виртуальных агентов, предоставляя:
Сравнения с существующей работой:

Установить требования:
apt-get install gnome-screenshot xclip xdotool # If using Ubuntu 22.04
conda create --name agent-studio python=3.11 -y
conda activate agent-studio
pip install -e ' .[client] ' Все конфиденциальные клавиши API должны храниться в agent_studio/config/api_key.json , например, openai API -ключ, ключ Claude API, ключ Gemini API и т. Д. Мы представили пример конфигурации в agent_studio/config/api_key_template.json .

Agentstudio предоставляет наиболее общее пространство для наблюдения и действия, которое значительно расширяет пространство задач, позволяя разработать и оценивать агенты в реальных условиях. Мы вводим контрольный набор, состоящий из 205 задач. Эти задачи охватывают использование API, такие как Terminal и Gmail и программное обеспечение GUI, такие как VS -код. Пожалуйста, найдите больше в eval_online_benchmarks/readme.md. Связанные с задачей файлы доступны на нашей странице проекта.
Чтобы получить более глубокое представление о возможностях агента, помимо общей производительности, измеренной с помощью онлайн -задач, мы разрабатываем три набора данных с использованием Agentstudio: Groundui, Idmbench и Criticbench. Эти наборы данных нацелены на общее использование пользовательского интерфейса, обучение на видео и обнаружение успеха. Более подробная информация приведена в eval_agent_desiderata/readme.md. Все данные доступны на нашей странице проекта.
Чтобы облегчить разработку и оценку агентов в среде Agentstudio, мы предоставляем три инструмента для:
Эти инструменты в сочетании с реалистичной средой агента Studio способствуют генерации богатых, структурированных данных для обучения и оценки агентов. Пожалуйста, обратитесь к DOCS/ANNOTATE_GRAING_UI.MD для инструмента аннотации GUI, Agent_studio/Recorder/readme.md для инструмента аннотации видео-действия и evall_online_benchmarks/readme.md для создания/валидации задачи.
Вклад и отзывы всех о том, как превратить это в лучший инструмент, более чем приветствуются. Пожалуйста, ознакомьтесь с Anforming.md, чтобы принять участие.
Мы хотели бы поблагодарить следующие проекты за их вдохновение и вклад в сообщество с открытым исходным кодом: открытый переводчик, Webarena, Cradle, Synapse, Seeclick, Screenagent, Osworld и т. Д.
Если вы найдете Agentstudio полезным, пожалуйста, цитируйте нашу статью:
@article { zheng2024agentstudio ,
title = { AgentStudio: A Toolkit for Building General Virtual Agents } ,
author = { Longtao Zheng and Zhiyuan Huang and Zhenghai Xue and Xinrun Wang and Bo An and Shuicheng Yan } ,
journal = { arXiv preprint arXiv:2403.17918 } ,
year = { 2024 }
}