
AgentStudioは、一般的な仮想エージェントが任意のコンピューターソフトウェアと対話するための環境、ツール、およびベンチマークの三位一体です。 AgentStudioは、次のことを提供することにより、堅牢、一般、およびオープンエンドの仮想エージェントをターゲットにします。
既存の作業との比較:

要件をインストールする:
apt-get install gnome-screenshot xclip xdotool # If using Ubuntu 22.04
conda create --name agent-studio python=3.11 -y
conda activate agent-studio
pip install -e ' .[client] 'すべての機密APIキーは、 agent_studio/config/api_key.json agent_studio/config/api_key_template.jsonに保存する必要があります。

AgentStudioは、最も一般的な観測とアクションスペースを提供し、タスク空間を大幅に拡張し、実際の設定でエージェントを開発および評価できるようにします。 205のタスクで構成されるベンチマークスイートを紹介します。これらのタスクは、ターミナルやGmail、およびVSコードなどのGUIソフトウェアなどのAPI使用法に及びます。詳細については、eval_online_benchmarks/readme.mdをご覧ください。タスク関連のファイルは、プロジェクトページで入手できます。
オンラインベンチマークタスクで測定された全体的なパフォーマンスを超えて、エージェント機能に関するより深い洞察を得るために、GroundUI、Idmbench、およびCriticbenchのAgentStudioを使用して3つのデータセットを開発します。これらのデータセットは、一般的なUIの接地、ビデオからの学習、成功の検出を対象としています。詳細については、eval_agent_desiderata/readme.mdをご覧ください。すべてのデータは、プロジェクトページで入手できます。
AgentStudio環境内のエージェントの開発と評価を促進するために、次の3つのツールを提供します。
これらのツールは、AgentStudioの現実的な環境と相まって、トレーニングと評価のための豊富な構造化されたデータの生成に貢献しています。 GUIアノテーションツールについては、ビデオアクションアノテーションツールについては、GUIアノテーションツール、agent_studio/recorder/readme.mdについてはdocs/annotate_ground_ui.md、およびタスク作成/検証についてはeval_online_benchmarks/readme.mdを参照してください。
これをより良いツールにする方法に関するすべての人からの貢献とフィードバックは大歓迎です。関与する方法については、Converting.mdをチェックしてください。
オープンソースコミュニティへのインスピレーションと貢献について、以下のプロジェクトに感謝します。
AgentStudioが便利だと思う場合は、私たちの論文を引用してください。
@article { zheng2024agentstudio ,
title = { AgentStudio: A Toolkit for Building General Virtual Agents } ,
author = { Longtao Zheng and Zhiyuan Huang and Zhenghai Xue and Xinrun Wang and Bo An and Shuicheng Yan } ,
journal = { arXiv preprint arXiv:2403.17918 } ,
year = { 2024 }
}