In einer professionellen Umgebung stehen Agenten für grafische Benutzeroberflächen (GUI) vor drei wichtigen Herausforderungen. Erstens ist die Komplexität professioneller Anwendungen viel höher als die der allgemeinen Software und erfordert ein tiefes Verständnis komplexer Layouts. Diese Anwendungen enthalten normalerweise eine große Anzahl von Funktionsmodulen und komplexe interaktive Logik, sodass GUI -Agenten ein hohes Maß an Intelligenz und Anpassungsfähigkeit aufweisen müssen. Zweitens haben professionelle Tools in der Regel höhere Auflösungen, was zu kleineren Zielgrößen führt, wodurch die Positionierungsgenauigkeit verringert wird. Diese hochauflösende Umgebung stellt höhere Anforderungen an die Genauigkeit von GUI -Agenten, insbesondere wenn es sich um winzige Schnittstellenelemente handelt. Schließlich stützen sich Workflows dazu, auf zusätzliche Tools und Dokumentationen zu stützen, was zur Komplexität des Betriebs beiträgt. Diese Herausforderungen unterstreichen die Notwendigkeit, fortschrittlichere Benchmarks und Lösungen zu entwickeln, um die Leistung von GUI -Agenten in diesen strengen Szenarien zu verbessern.

Aktuelle GUI -Positionierungsmodelle und Benchmarks können die Anforderungen professioneller Umgebungen nicht erfüllen. Beispielsweise sind Tools wie Bildschirmscheiben hauptsächlich für Aufgaben mit niedriger Auflösung konzipiert und fehlen die Vielfalt, die reale Szenarien genau simulieren kann. Modelle wie OS-Atlas und Uground funktionieren in Bezug auf die Recheneffizienz nicht gut, insbesondere wenn das Ziel klein ist oder die Schnittstellensymbole reich sind, sie scheitern häufig. Darüber hinaus schränkt der Mangel an mehrsprachiger Unterstützung die Anwendung dieser Modelle in globalen Workflows ein. Diese Mängel unterstreichen die Notwendigkeit eines umfassenderen und realistischeren Maßstabs, um diesen Bereich voranzutreiben.
Um diese Themen anzugehen, haben die Forschungsteams der Nationalen Universität von Singapur, der East China Normal University und der Hong Kong Baptist University Screenspot-Pro, einen neuen Benchmark, der auf hochauflösende professionelle Umgebungen zugeschnitten ist, auf den Markt gebracht. Der Benchmark verfügt über 1.581 Task -Datensätze aus 23 Branchen, darunter Entwicklung, kreative Tools, CAD, naturwissenschaftliche Plattformen und Office -Suiten. Es verwendet hochauflösende volle Bildschirme und sorgt für Genauigkeit und Realität durch Expertenanmerkungen. Screenspot-Pro bietet auch mehrsprachige Anleitungen, einschließlich Englisch und Chinesisch, um den Bewertungsumfang zu erweitern. Im Gegensatz zu zuvor dokumentiert Screenspot-Pro den tatsächlichen Workflow, um die Erzeugung hochwertiger Annotationen zu gewährleisten und so wirksame Instrumente für die umfassende Bewertung und Entwicklung von GUI-Positionierungsmodellen bereitzustellen.
Dieser Datensatz erfasst reale und herausfordernde Szenen, die auf hochauflösenden Bildern basieren und deren Zielbereiche im Durchschnitt nur 0,07% des Gesamtbildschirms ausmachen und Nuancen und Miniaturisierung von GUI-Elementen zeigen. Die Daten werden von professionellen Benutzern mit umfangreicher Erfahrung in verwandten Anwendungen gesammelt, wobei spezielle Tools verwendet werden, um die Genauigkeit von Anmerkungen zu gewährleisten. Darüber hinaus unterstützt der Datensatz mehrsprachige Funktionen, um die Testen von zweisprachigen Fähigkeiten zu erleichtern, und umfasst mehrere Workflows, um die Nuancen professioneller Aufgaben zu erfassen. Diese Funktionen machen es besonders vorteilhaft für die Bewertung und Verbesserung der Genauigkeit und Flexibilität von GUI -Agenten.
Die Analyse vorhandener GUI-Positionierungsmodelle unter Verwendung von Screenspot-PRO zeigt, dass es einen ernsthaften Mangel an Fähigkeiten im Umgang mit hochauflösenden professionellen Umgebungen hat. Die höchste Genauigkeitsrate von OS-Atlas-7b beträgt nur 18,9%. Recround, das die iterative Methode übernimmt, verbessert jedoch die Leistung durch die Feinabstimmung der mehrstufigen Methode und erreicht eine Genauigkeit von 40,2%. Die Identifizierung kleiner Komponenten wie Symbole zeigt erhebliche Schwierigkeiten, während die zweisprachige Aufgabe die Einschränkungen des Modells weiter hervorhebt. Diese Ergebnisse unterstreichen die Notwendigkeit, Techniken zu verbessern, um das kontextbezogene Verständnis und die Anpassungsfähigkeit in komplexen GUI -Umgebungen zu verbessern.
Screenspot-Pro legt einen transformativen Benchmark für die Bewertung von GUI-Agenten in hochauflösenden professionellen Umgebungen fest. Es befasst sich mit spezifischen Herausforderungen in komplexen Workflows und bietet verschiedene und präzise Datensätze, um Innovationen bei der GUI -Positionierung zu leiten. Dieser Beitrag wird die Grundlage für intelligentere und effizientere Agenten bilden, wodurch die nahtlose Ausführung professioneller Aufgaben unterstützt und die Produktivität und Innovation in verschiedenen Branchen erheblich verbessert wird.
Papier: https://likaixin2000.github.io/papers/screenspot_pro.pdf
Daten |: https: //huggingface.co/datasets/likaixin/screenspot-pro
Schlüsselpunkte:
** Komplexität professioneller Anwendungen **: GUI -Agenten müssen professionelle Software -Schnittstellen mit hoher Komplexität und hoher Auflösung bearbeiten.
** Screenspot-pro-Datensatz **: Enthält 1.581 Aufgaben, deckt 23 professionelle Anwendungen ab und unterstützt mehrsprachige Bewertung.
** Modellleistung Verbesserung **: Verbessert die Genauigkeit des GUI-Positionierungsmodells in hochauflösenden Umgebungen.