В профессиональной среде агенты графического пользовательского интерфейса (GUI) сталкиваются с тремя ключевыми проблемами. Прежде всего, сложность профессиональных приложений намного выше, чем у общего программного обеспечения, и требует глубокого понимания сложных макетов. Эти приложения обычно содержат большое количество функциональных модулей и сложную интерактивную логику, требующие от агентов графического интерфейса иметь высокую степень интеллекта и адаптивности. Во -вторых, профессиональные инструменты обычно имеют более высокие разрешения, что приводит к меньшим размерам цели, что снижает точность позиционирования. Эта среда высокого разрешения удовлетворяет более высокие требования к точности агентов по графическим интерфейсу, особенно при работе с крошечными элементами интерфейса. Наконец, рабочие процессы имеют тенденцию полагаться на дополнительные инструменты и документацию, добавляя сложность операций. Эти проблемы подчеркивают необходимость разработки более продвинутых критериев и решений для повышения производительности агентов по графическим интерфейсу в этих строгих сценариях.

Текущие модели позиционирования графического интерфейса и контрольные показатели не могут соответствовать требованиям профессиональной среды. Например, такие инструменты, как Screenspot, предназначены в основном для задач с низким разрешением и не имеют разнообразия, которое может точно имитировать реальные сценарии. Такие модели, как OS-Atlas и Uground, не работают хорошо с точки зрения эффективности вычислений, особенно когда цель невелика или значки интерфейса богаты, они часто терпят неудачу. Кроме того, отсутствие многоязычной поддержки также ограничивает применение этих моделей в глобальных рабочих процессах. Эти недостатки еще больше подчеркивают необходимость в более полном и реалистичном эталонном эталоне для продвижения этой области.
Чтобы решить эти проблемы, исследовательские группы из Национального университета Сингапура, Восточного Китая Нормального университета и Гонконга-баптистского университета запустили Screenspot-Pro, новый эталон, адаптированный для профессиональной среды с высоким разрешением. В эталоне есть 1581 набор данных задач из 23 отраслей, включая разработку, креативные инструменты, САПР, научные платформы и офисные люксы. Он использует полноэкранные визуальные эффекты с высоким разрешением и обеспечивает точность и реальность посредством экспертных аннотаций. Screenspot-Pro также предоставляет многоязычное руководство, в том числе английский и китайский, чтобы расширить сферу оценки. В отличие от ранее, Screenspot-Pro документирует фактический рабочий процесс, обеспечивая генерацию высококачественных аннотаций, что обеспечивает эффективные инструменты для комплексной оценки и разработки моделей позиционирования GUI.
Этот набор данных отражает реальные и сложные сцены, основанные на изображениях с высоким разрешением, чьи целевые области составляют только 0,07% от общего экрана в среднем, показывая нюансы и миниатюризацию элементов графического интерфейса. Данные собираются профессиональными пользователями с обширным опытом в связанных приложениях, используя специализированные инструменты для обеспечения точности аннотаций. Кроме того, набор данных поддерживает многоязычные возможности для облегчения тестирования двуязычных способностей и включает в себя несколько рабочих процессов для захвата нюансов профессиональных задач. Эти функции делают его особенно полезным для оценки и повышения точности и гибкости агентов GUI.
Анализ существующих моделей позиционирования с графическим интерфейсом с использованием Screenspot-Pro показывает, что у него серьезное отсутствие возможностей в работе с профессиональной средой с высоким разрешением. Самая высокая точность OS-ATLAS-7B составляет всего 18,9%. Тем не менее, повторный способ, который принимает итеративный метод, повышает производительность за счет тонкой настройки многоэтапного метода, достигая точности 40,2%. Идентификация небольших компонентов, таких как иконки, показывает значительные трудности, в то время как двуязычная задача дополнительно подчеркивает ограничения модели. Эти результаты подчеркивают необходимость улучшения методов для улучшения контекстуального понимания и адаптивности в сложных средах графического интерфейса.
Screenspot-Pro устанавливает преобразующий эталон для оценки агентов по графическим интерфейсу в профессиональной среде с высоким разрешением. Он решает конкретные проблемы в сложных рабочих процессах и предоставляет различные и точные наборы данных для руководства инновациями в позиционировании GUI. Этот вклад заложит основу для более умных и более эффективных агентов, тем самым поддерживая плавное выполнение профессиональных задач и значительно повышая производительность и инновации в различных отраслях.
Бумага: https://likaixin2000.github.io/papers/screenspot_pro.pdf
Данные |: https: //huggingface.co/datasets/likaixin/screenspot-pro
Ключевые моменты:
** Сложность профессиональных приложений **: агенты GUI должны обрабатывать профессиональные программные интерфейсы с высокой сложностью и высоким разрешением.
** Набор данных Screenspot-Pro **: содержит 1581 задачи, охватывает 23 профессиональных приложения и поддерживает многоязычную оценку.
** Повышение производительности модели **: Через многоэтапную точную настройку повысить точность модели позиционирования графического интерфейса в средах высокого разрешения.