전문 환경에서 GUI (Graphical User Interface) 에이전트는 세 가지 주요 과제에 직면 해 있습니다. 우선, 전문 애플리케이션의 복잡성은 일반 소프트웨어의 복잡성보다 훨씬 높으며 복잡한 레이아웃에 대한 깊은 이해가 필요합니다. 이러한 응용 프로그램에는 일반적으로 많은 수의 기능 모듈과 복잡한 대화 형 로직이 포함되어 있으며, GUI 에이전트는 높은 수준의 지능 및 적응성을 갖도록 요구합니다. 둘째, 전문 도구는 일반적으로 해상도가 높기 때문에 대상 크기가 작아 위치 정확도가 줄어 듭니다. 이 고해상도 환경은 특히 작은 인터페이스 요소를 다룰 때 GUI 에이전트의 정확도에 대한 수요가 높아집니다. 마지막으로 워크 플로는 추가 도구 및 문서에 의존하여 운영의 복잡성을 추가하는 경향이 있습니다. 이러한 과제는 이러한 엄격한 시나리오에서 GUI 에이전트의 성능을 향상시키기 위해보다 고급 벤치 마크와 솔루션을 개발할 필요성을 강조합니다.

현재 GUI 포지셔닝 모델 및 벤치 마크는 전문 환경의 요구 사항을 충족시킬 수 없습니다. 예를 들어, Screenspot과 같은 도구는 주로 저해상도 작업을 위해 설계되었으며 실제 시나리오를 정확하게 시뮬레이션 할 수있는 다양성이 부족합니다. OS-Atlas 및 UGround와 같은 모델은 컴퓨팅 효율 측면에서 잘 작동하지 않습니다. 특히 대상이 작거나 인터페이스 아이콘이 풍부 할 때 종종 실패합니다. 또한, 다국어 지원이 부족하면 글로벌 워크 플로우에서 이러한 모델의 적용을 제한합니다. 이러한 결점은이 지역을 발전시키기 위해보다 포괄적이고 현실적인 벤치 마크가 필요하다는 것을 강조합니다.
이러한 문제를 해결하기 위해 싱가포르 국립 대학교, 동서 중국 정상 대학교 및 홍콩 침례 대학교 (Hong Kong Baptist University)의 연구팀은 고해상도 전문 환경에 맞는 새로운 벤치 마크 인 스크린 포트 프로를 시작했습니다. 벤치 마크에는 개발, 창의적 도구, CAD, 과학 플랫폼 및 사무실 스위트를 포함한 23 개 산업의 1,581 개의 작업 데이터 세트가 있습니다. 고해상도 풀 스크린 비주얼을 사용하고 전문가 주석을 통해 정확성과 현실을 보장합니다. Screenspot-Pro는 또한 평가 범위를 확장하기 위해 영어 및 중국어를 포함한 다국어 지침을 제공합니다. 이전과 달리 Screenspot-Pro는 실제 워크 플로우를 문서화하여 고품질 주석의 생성을 보장하여 GUI 포지셔닝 모델의 포괄적 인 평가 및 개발을위한 효과적인 도구를 제공합니다.
이 데이터 세트는 대상 영역이 전체 화면의 평균 0.07%에 불과한 고해상도 이미지를 기반으로 실제 및 도전적인 장면을 캡처하여 GUI 요소의 뉘앙스 및 소형화를 보여줍니다. 데이터는 주석의 정확성을 보장하기 위해 특수 도구를 사용하여 관련 응용 프로그램에 대한 광범위한 경험을 가진 전문 사용자가 수집합니다. 또한 데이터 세트는 다국어 기능을 지원하여 이중 언어 능력 테스트를 용이하게하고 전문적인 작업의 뉘앙스를 캡처하기위한 여러 워크 플로를 포함합니다. 이러한 기능은 GUI 에이전트의 정확성과 유연성을 평가하고 개선하는 데 특히 도움이됩니다.
Screenspot-PRO를 사용한 기존 GUI 포지셔닝 모델을 분석 한 결과 고해상도 전문 환경을 다루는 능력이 심각하지 않음을 보여줍니다. OS-Atlas-7b의 가장 높은 정확도는 18.9%에 불과합니다. 그러나 반복적 인 방법을 채택하는 Reground는 다중 단계 방법의 미세 조정을 통해 성능을 향상시켜 40.2%의 정확도를 달성합니다. 아이콘과 같은 작은 구성 요소를 식별하면 상당한 어려움이 나타나고 이중 언어 작업은 모델의 한계를 더욱 강조합니다. 이러한 결과는 복잡한 GUI 환경에서 상황에 대한 이해와 적응성을 향상시키기위한 기술을 향상시켜야 할 필요성을 강조합니다.
Screenspot-Pro는 고해상도 전문 환경에서 GUI 에이전트의 평가를위한 혁신적인 벤치 마크를 설정합니다. 복잡한 워크 플로의 특정 과제를 해결하고 GUI 포지셔닝의 혁신을 안내하기 위해 다양하고 정확한 데이터 세트를 제공합니다. 이 기여는 더 똑똑하고 효율적인 에이전트의 토대를 마련하여 전문 업무의 원활한 실행을 지원하고 다양한 산업에서 생산성과 혁신을 크게 향상시킬 것입니다.
종이 : https://likaixin2000.github.io/papers/screenspot_pro.pdf
데이터 | : https : //huggingface.co/datasets/likaixin/screenspot-pro
핵심 사항 :
** 전문 애플리케이션의 복잡성 ** : GUI 에이전트는 복잡성이 높고 해상도가 높은 전문 소프트웨어 인터페이스를 처리해야합니다.
** Screenspot-Pro DataSet ** : 1,581 개의 작업이 포함되어 있으며 23 개의 전문 응용 프로그램을 포함하며 다국어 평가를 지원합니다.
** 모델 성능 향상 ** : 다단계 미세 조정을 통해 고해상도 환경에서 GUI 포지셔닝 모델의 정확도를 향상시킵니다.