Dans un environnement professionnel, les agents d'interface utilisateur graphique (GUI) sont confrontés à trois défis clés. Tout d'abord, la complexité des applications professionnelles est beaucoup plus élevée que celle des logiciels généraux et nécessite une compréhension approfondie des dispositions complexes. Ces applications contiennent généralement un grand nombre de modules fonctionnels et une logique interactive complexe, ce qui nécessite que les agents de l'interface graphique aient un degré élevé d'intelligence et d'adaptabilité. Deuxièmement, les outils professionnels ont généralement des résolutions plus élevées, entraînant des tailles cibles plus petites, ce qui réduit la précision de positionnement. Cet environnement à haute résolution impose des exigences plus élevées sur la précision des agents de l'interface graphique, en particulier lorsqu'il s'agit de minuscules éléments d'interface. Enfin, les workflows ont tendance à s'appuyer sur des outils et de la documentation supplémentaires, ajoutant à la complexité des opérations. Ces défis mettent en évidence la nécessité de développer des références et des solutions plus avancées pour améliorer les performances des agents GUI dans ces scénarios rigoureux.

Les modèles de positionnement de l'interface graphique actuels et les repères ne peuvent pas répondre aux exigences des environnements professionnels. Par exemple, des outils tels que le point d'écran sont conçus principalement pour les tâches à basse résolution et n'ont pas la diversité qui peut simuler avec précision les scénarios réels. Des modèles tels que OS-Atlas et Uground ne fonctionnent pas bien en termes d'efficacité informatique, en particulier lorsque la cible est petite ou que les icônes d'interface sont riches, elles échouent souvent. De plus, le manque de support multilingue limite également l'application de ces modèles dans les flux de travail mondiaux. Ces lacunes soulignent davantage la nécessité d'une référence plus complète et réaliste pour faire avancer ce domaine.
Pour résoudre ces problèmes, les équipes de recherche de l'Université nationale de Singapour, de l'Université normale de la Chine orientale et de l'Université baptiste de Hong Kong ont lancé Screnspot-PRO, une nouvelle référence adaptée aux environnements professionnels haute résolution. La référence compte 1 581 ensembles de données de tâches de 23 industries, notamment le développement, les outils créatifs, la CAD, les plateformes scientifiques et les suites de bureaux. Il utilise des visuels à haute résolution et assure la précision et la réalité grâce à des annotations d'experts. L'écran-PRO-PRO fournit également des conseils multilingues, y compris l'anglais et le chinois, pour étendre la portée de l'évaluation. Contrairement au précédent, le point d'écran-PRO documente le flux de travail réel, garantissant la génération d'annotations de haute qualité, fournissant ainsi des outils efficaces pour l'évaluation complète et le développement de modèles de positionnement de l'interface graphique.
Cet ensemble de données capture des scènes réelles et difficiles, basées sur des images à haute résolution, dont les zones cibles ne représentent que 0,07% de l'écran total en moyenne, montrant la nuance et la miniaturisation des éléments GUI. Les données sont collectées par des utilisateurs professionnels ayant une vaste expérience dans les applications connexes, en utilisant des outils spécialisés pour assurer la précision des annotations. De plus, l'ensemble de données prend en charge les capacités multilingues pour faciliter le test des capacités bilingues et comprend plusieurs workflows pour capturer les nuances des tâches professionnelles. Ces caractéristiques le rendent particulièrement bénéfique pour évaluer et améliorer la précision et la flexibilité des agents de l'interface graphique.
L'analyse des modèles de positionnement de l'interface graphique existantes à l'aide de Screenspot-PRO montre qu'il a un sérieux manque de capacité dans le traitement des environnements professionnels à haute résolution. Le taux de précision le plus élevé d'OS-ATLAS-7B n'est que de 18,9%. Cependant, Reground, qui adopte la méthode itérative, améliore les performances par le réglage fin de la méthode en plusieurs étapes, atteignant une précision de 40,2%. L'identification de petites composants telles que les icônes montre des difficultés importantes, tandis que la tâche bilingue met en outre les limites du modèle. Ces résultats mettent en évidence la nécessité d'améliorer les techniques pour améliorer la compréhension contextuelle et l'adaptabilité dans des environnements d'interface graphique complexes.
L'écran-PRO-PRO établit une référence transformatrice pour l'évaluation des agents GUI dans des environnements professionnels à haute résolution. Il relève des défis spécifiques dans les flux de travail complexes et fournit des ensembles de données divers et précis pour guider les innovations dans le positionnement de l'interface graphique. Cette contribution jette les bases d'agents plus intelligents et plus efficaces, soutenant ainsi l'exécution transparente des tâches professionnelles et améliorant considérablement la productivité et l'innovation dans diverses industries.
Papier: https://likaixin2000.github.io/papers/screenspot_pro.pdf
Données |: https: //huggingface.co/datasets/likaixin/screenspot-pro
Points clés:
** Complexité des applications professionnelles **: Les agents GUI doivent gérer les interfaces logicielles professionnelles avec une grande complexité et une haute résolution.
** DataSet-PRO de capot d'écran **: contient 1 581 tâches, couvre 23 applications professionnelles et prend en charge l'évaluation multilingue.
** Modèle Amélioration des performances **: grâce à un réglage fin en plusieurs étapes, améliorez la précision du modèle de positionnement de l'interface graphique dans des environnements à haute résolution.