在專業環境中,圖形用戶界面(GUI)代理面臨著三大關鍵挑戰。首先,專業應用程序的複雜性遠高於一般軟件,要求對複雜佈局有深入理解。這些應用通常包含大量的功能模塊和復雜的交互邏輯,需要GUI代理具備高度的智能化和自適應能力。其次,專業工具通常具備更高的分辨率,導致目標尺寸較小,從而降低了定位準確性。這種高分辨率環境對GUI代理的精確度提出了更高要求,尤其是在處理微小界面元素時。最後,工作流程往往依賴於額外工具和文檔,增加了操作的複雜性。這些挑戰凸顯了開發更先進的基準和解決方案以提升GUI代理在這些嚴苛場景中的性能的必要性。

目前的GUI定位模型和基準無法滿足專業環境的要求。例如,ScreenSpot等工具設計主要用於低分辨率任務,缺乏能夠準確模擬現實場景的多樣性。而OS-Atlas和UGround等模型在計算效率上表現不佳,尤其在目標較小或界面圖標豐富的情況下,常常出現失效。此外,缺乏多語言支持也限制了這些模型在全球工作流程中的應用。這些不足之處進一步突顯了需要更全面和現實的基準,以推動這一領域的發展。
為了解決這些問題,新加坡國立大學、華東師範大學和香港浸會大學的研究團隊推出了ScreenSpot-Pro,這是一個專為高分辨率專業環境量身定制的新基準。該基準擁有來自23個行業的1,581個任務數據集,包括開發、創意工具、CAD、科學平台和辦公套件。它採用高分辨率的全屏視覺效果,並通過專家註釋確保准確性和現實性。 ScreenSpot-Pro還提供了包括英語和中文在內的多語言指導,以擴展評估範圍。與以往不同的是,ScreenSpot-Pro文檔化了實際工作流程,確保高質量註釋的產生,從而為GUI定位模型的全面評估和開發提供了有效工具。
該數據集捕捉了真實且富有挑戰性的場景,基於高分辨率圖像,其目標區域平均僅佔總屏幕的0.07%,顯示出GUI元素的細微和小型化。數據由在相關應用中具有豐富經驗的專業用戶收集,使用專門工具確保註釋的準確性。此外,該數據集還支持多語言功能,便於測試雙語能力,並包含多個工作流程,以捕捉專業任務的細微差別。這些特點使其特別有利於評估和提升GUI代理的準確性和靈活性。
利用ScreenSpot-Pro對現有GUI定位模型的分析顯示出其在處理高分辨率專業環境中的能力嚴重不足。 OS-Atlas-7B的準確率最高僅為18.9%。然而,採用迭代方法的ReGround通過多步驟方法的微調,提高了性能,達到了40.2%的準確率。小型組件如圖標的識別表現出顯著困難,而雙語任務進一步凸顯了模型的局限性。這些發現強調了改進技術以增強在復雜GUI環境中的上下文理解和適應能力的必要性。
ScreenSpot-Pro為高分辨率專業環境中GUI代理的評估設定了一個變革性的基準。它解決了複雜工作流程中的具體挑戰,提供了多樣化和精確的數據集,以指導GUI定位的創新。這一貢獻將為更智能、高效的代理奠定基礎,從而支持專業任務的無縫執行,顯著提升各行業的生產力和創新力。
論文:https://likaixin2000.github.io/papers/ScreenSpot_Pro.pdf
數據|:https://huggingface.co/datasets/likaixin/ScreenSpot-Pro
劃重點:
** 專業應用的複雜性**:GUI代理需處理高複雜度和高分辨率的專業軟件界面。
**ScreenSpot-Pro數據集**:包含1,581個任務,覆蓋23個專業應用,支持多語言評估。
** 模型性能提升**:通過多步驟微調,提升GUI定位模型在高分辨率環境中的準確率。