En un entorno profesional, los agentes gráficos de la interfaz de usuario (GUI) enfrentan tres desafíos clave. En primer lugar, la complejidad de las aplicaciones profesionales es mucho más alta que la del software general, y requiere una comprensión profunda de los diseños complejos. Estas aplicaciones generalmente contienen una gran cantidad de módulos funcionales y lógica interactiva compleja, lo que requiere que los agentes de la GUI tengan un alto grado de inteligencia y adaptabilidad. En segundo lugar, las herramientas profesionales generalmente tienen resoluciones más altas, lo que resulta en tamaños objetivo más pequeños, lo que reduce la precisión del posicionamiento. Este entorno de alta resolución impone mayores demandas sobre la precisión de los agentes de la GUI, especialmente cuando se trata de pequeños elementos de interfaz. Finalmente, los flujos de trabajo tienden a confiar en herramientas y documentación adicionales, lo que se suma a la complejidad de las operaciones. Estos desafíos destacan la necesidad de desarrollar puntos de referencia y soluciones más avanzados para mejorar el rendimiento de los agentes de la GUI en estos rigurosos escenarios.

Los modelos y puntos de referencia actuales de posicionamiento de la GUI no pueden cumplir con los requisitos de los entornos profesionales. Por ejemplo, las herramientas como ScreensPot están diseñadas principalmente para tareas de baja resolución y carecen de la diversidad que puede simular con precisión escenarios de la vida real. Los modelos como OS-Atlas y Uground no funcionan bien en términos de eficiencia informática, especialmente cuando el objetivo es pequeño o los íconos de la interfaz son ricos, a menudo fallan. Además, la falta de soporte multilingüe también limita la aplicación de estos modelos en los flujos de trabajo globales. Estas deficiencias subrayan aún más la necesidad de un punto de referencia más completo y realista para avanzar en esta área.
Para abordar estos problemas, los equipos de investigación de la Universidad Nacional de Singapur, la Universidad Normal de China East China y la Universidad Bautista de Hong Kong han lanzado ScreensPot-Pro, un nuevo punto de referencia adaptado para entornos profesionales de alta resolución. El punto de referencia tiene 1,581 conjuntos de datos de tareas de 23 industrias, incluidos el desarrollo, las herramientas creativas, CAD, plataformas de ciencias y suites de oficina. Utiliza imágenes de pantalla completa de alta resolución y garantiza la precisión y la realidad a través de anotaciones de expertos. ScreensPot-Pro también proporciona orientación multilingüe, incluido inglés y chino, para extender el alcance de la evaluación. A diferencia de antes, ScreensPot-Pro documenta el flujo de trabajo real, asegurando la generación de anotaciones de alta calidad, proporcionando así herramientas efectivas para la evaluación y el desarrollo integrales de los modelos de posicionamiento de GUI.
Este conjunto de datos captura escenas reales y desafiantes, basadas en imágenes de alta resolución, cuyas áreas objetivo representan solo el 0.07% de la pantalla total en promedio, que muestra matices y miniaturización de elementos de la GUI. Los datos son recopilados por usuarios profesionales con amplia experiencia en aplicaciones relacionadas, utilizando herramientas especializadas para garantizar la precisión de las anotaciones. Además, el conjunto de datos admite capacidades multilingües para facilitar las pruebas de habilidades bilingües e incluye múltiples flujos de trabajo para capturar los matices de las tareas profesionales. Estas características hacen que sea particularmente beneficioso para evaluar y mejorar la precisión y flexibilidad de los agentes de la GUI.
El análisis de los modelos de posicionamiento de GUI existentes utilizando ScreensPot-Pro muestra que tiene una grave falta de capacidad para tratar con entornos profesionales de alta resolución. La tasa de precisión más alta de OS-ATLAS-7B es solo del 18.9%. Sin embargo, Reground, que adopta el método iterativo, mejora el rendimiento a través del ajuste del método de múltiples pasos, logrando una precisión del 40,2%. La identificación de componentes pequeños, como los iconos, muestra dificultades significativas, mientras que la tarea bilingüe resalta aún más las limitaciones del modelo. Estos hallazgos destacan la necesidad de mejorar las técnicas para mejorar la comprensión y adaptabilidad contextuales en entornos de GUI complejos.
ScreensPot-Pro establece un punto de referencia transformador para la evaluación de agentes de la GUI en entornos profesionales de alta resolución. Aborda desafíos específicos en flujos de trabajo complejos y proporciona conjuntos de datos diversos y precisos para guiar innovaciones en el posicionamiento de la GUI. Esta contribución sentará las bases para los agentes más inteligentes y más eficientes, apoyando así la ejecución perfecta de tareas profesionales y mejorar significativamente la productividad e innovación en diversas industrias.
Documento: https://likaixin2000.github.io/papers/screenspot_pro.pdf
Datos |: https: //huggingface.co/datasets/likaixin/screenspot-pro
Puntos clave:
** Complejidad de aplicaciones profesionales **: Los agentes de la GUI deben manejar interfaces de software profesionales con alta complejidad y alta resolución.
** El conjunto de datos de capas de pantalla-Pro **: contiene 1,581 tareas, cubre 23 aplicaciones profesionales y admite una evaluación multilingüe.
** Mejora del rendimiento del modelo **: a través del ajuste fino de varios pasos, mejore la precisión del modelo de posicionamiento de GUI en entornos de alta resolución.