プロフェッショナル環境では、グラフィカルユーザーインターフェイス(GUI)エージェントが3つの重要な課題に直面しています。まず、専門的なアプリケーションの複雑さは一般的なソフトウェアの複雑さよりもはるかに高く、複雑なレイアウトを深く理解する必要があります。これらのアプリケーションには通常、多数の機能モジュールと複雑なインタラクティブロジックが含まれているため、GUIエージェントは高度なインテリジェンスと適応性を持つ必要があります。第二に、プロフェッショナルツールの解像度は高いため、ターゲットサイズが小さくなり、ポジショニングの精度が低下します。この高解像度環境は、特に小さなインターフェイス要素を扱う場合、GUIエージェントの精度に大きな要求をもたらします。最後に、ワークフローは追加のツールとドキュメントに依存する傾向があり、操作の複雑さを増します。これらの課題は、これらの厳格なシナリオでのGUIエージェントのパフォーマンスを改善するために、より高度なベンチマークとソリューションを開発する必要性を強調しています。

現在のGUIポジショニングモデルとベンチマークは、専門環境の要件を満たすことができません。たとえば、Screenspotなどのツールは、主に低解像度のタスク用に設計されており、実際のシナリオを正確にシミュレートできる多様性が不足しています。 OS-AtlasやUgroundなどのモデルは、特にターゲットが小さく、インターフェイスアイコンがリッチな場合、コンピューティング効率の点でうまく機能しません。さらに、多言語サポートがないため、これらのモデルのグローバルワークフローの適用も制限されます。これらの欠点は、このエリアを前進させるために、より包括的で現実的なベンチマークの必要性をさらに強調しています。
これらの問題に対処するために、シンガポール国立大学、東中国師範大学、香港バプティスト大学の研究チームは、高解像度の専門環境に合わせた新しいベンチマークであるScreenspot-Proを立ち上げました。ベンチマークには、開発、クリエイティブツール、CAD、科学プラットフォーム、オフィススイートなど、23の業界からの1,581のタスクデータセットがあります。高解像度のフルスクリーンビジュアルを使用し、専門家の注釈を通じて精度と現実を保証します。 Screenspot-Proは、評価の範囲を拡張するために、英語や中国語を含む多言語のガイダンスも提供します。以前とは異なり、Screenspot-Proは実際のワークフローを文書化し、高品質の注釈の生成を保証し、GUIポジショニングモデルの包括的な評価と開発のための効果的なツールを提供します。
このデータセットは、高解像度の画像に基づいて実際の挑戦的なシーンをキャプチャします。そのターゲットエリアは、平均して画面の合計のわずか0.07%を占めており、GUI要素のニュアンスと小型化を示しています。データは、専門的なアプリケーションで豊富な経験を持つプロのユーザーによって収集され、特殊なツールを使用して注釈の精度を確保します。さらに、データセットは多言語機能をサポートしてバイリンガル能力のテストを容易にし、プロのタスクのニュアンスをキャプチャするための複数のワークフローが含まれています。これらの機能により、GUIエージェントの精度と柔軟性の評価と改善に特に有益です。
Screenspot-Proを使用した既存のGUIポジショニングモデルの分析は、高解像度の専門環境に対処する能力が深刻に不足していることを示しています。 OS-ATLAS-7Bの最高精度はわずか18.9%です。ただし、反復方法を採用するRegroundは、マルチステップ方法の微調整によりパフォーマンスを向上させ、40.2%の精度を達成します。アイコンなどの小さなコンポーネントの識別は重大な困難を示していますが、バイリンガルタスクはモデルの制限をさらに強調しています。これらの調査結果は、複雑なGUI環境での文脈的理解と適応性を高めるための技術を改善する必要性を強調しています。
Screenspot-Proは、高解像度の専門環境でGUIエージェントを評価するための変革的ベンチマークを設定します。複雑なワークフローの特定の課題に対処し、GUIのポジショニングの革新を導くための多様で正確なデータセットを提供します。この貢献は、よりスマートで効率的なエージェントの基盤を築き、それにより、専門的なタスクのシームレスな実行をサポートし、さまざまな業界での生産性とイノベーションを大幅に向上させます。
論文:https://likaixin2000.github.io/papers/screenspot_pro.pdf
データ|:https://huggingface.co/datasets/likaixin/screenspot-pro
キーポイント:
**専門的なアプリケーションの複雑さ**:GUIエージェントは、高い複雑さと高解像度でプロのソフトウェアインターフェイスを処理する必要があります。
** Screenspot-Proデータセット**:1,581のタスクが含まれ、23の専門的なアプリケーションをカバーし、多言語評価をサポートします。
**モデルのパフォーマンス改善**:マルチステップの微調整を通じて、高解像度環境でのGUIポジショニングモデルの精度を向上させます。