Apple a publié une nouvelle génération d'assistant d'IA multiplateforme Ferret-UI2, qui a fait des progrès révolutionnaires dans la reconnaissance des éléments de l'interface utilisateur, avec un score au test de 89,73, dépassant de loin le score de 77,73 du GPT-4V. Ferret-UI2 peut comprendre les instructions en langage naturel, effectuer automatiquement les opérations correspondantes et prend en charge plusieurs plates-formes telles que l'iPhone, l'iPad, les appareils Android, les navigateurs Web et l'Apple TV. L'éditeur de Downcodes vous donnera une compréhension approfondie des fonctions puissantes et des détails techniques de cet assistant IA, ainsi que de son importance pour l'avenir de l'interaction homme-machine.
Apple a récemment lancé une nouvelle génération de système d'intelligence artificielle, Ferret-UI2. Cet assistant IA multiplateforme a réalisé une percée majeure dans la reconnaissance des éléments de l'interface utilisateur, avec un score au test de 89,73, nettement supérieur aux 77,73 points de GPT-4V, démontrant d'excellentes performances.
La plus grande caractéristique de ce système est sa capacité à comprendre intelligemment les intentions des utilisateurs. Différent de la méthode de fonctionnement traditionnelle basée sur des clics de coordonnées, Ferret-UI2 peut automatiquement localiser et effectuer les opérations correspondantes en fonction des instructions en langage naturel de l'utilisateur. L'équipe de recherche a généré des données de formation à l'aide des capacités visuelles du GPT-4V, permettant au système de mieux comprendre la relation spatiale entre les éléments de l'interface.

En termes d'architecture technique, Ferret-UI2 adopte une conception adaptative et peut identifier avec précision les éléments de l'interface utilisateur sur plusieurs plates-formes telles que l'iPhone, l'iPad, les appareils Android, les navigateurs Web et l'Apple TV. Le système est également équipé d'algorithmes intelligents capables d'ajuster automatiquement la résolution de l'image et les exigences de traitement en fonction des différentes plates-formes, garantissant ainsi l'efficacité informatique locale tout en préservant l'intégrité des informations.

Les données de test réelles montrent que le système fonctionne bien sur diverses plates-formes : l'iPhone fonctionne correctement, l'iPad a un taux de précision de 68 % et le taux de réussite sur les appareils Android atteint 71 %. Cependant, dans les scénarios multi-appareils, tels que le basculement entre les appareils mobiles et les interfaces TV ou Web, certains défis subsistent, principalement en raison des différences dans la disposition des interfaces entre les différentes plates-formes.
Il convient de noter que la concurrence dans le domaine de l’IA interactive de l’interface utilisateur est de plus en plus féroce. Anthropic a récemment mis à niveau les capacités d'interaction de l'interface utilisateur de Claude3.5Sonnet, et Microsoft a ouvert l'outil OmniParser, dédié à la conversion du contenu de l'écran en données structurées.
Le framework CAMPHOR lancé par Apple en même temps améliore encore la capacité du système à gérer des tâches complexes grâce à la coopération d'agents d'IA professionnels et d'agents de raisonnement maîtres. Cela signifie qu'à l'avenir, les assistants vocaux tels que Siri seront capables d'effectuer des tâches complexes telles que les réservations de restaurant de manière plus intelligente, sans obliger les utilisateurs à utiliser manuellement l'interface.
Cette avancée technologique améliore non seulement le niveau d'intelligence dans les opérations multi-appareils, mais trace également un plan de développement clair pour la prochaine génération d'interaction homme-machine. À mesure que la technologie continue d’évoluer, des expériences d’interaction homme-machine plus intelligentes et plus naturelles sont à notre portée.
L'émergence de Ferret-UI2 marque une nouvelle étape dans le développement des assistants IA. Sa forte compatibilité multiplateforme et ses capacités d'interaction intelligente offrent aux utilisateurs une expérience de fonctionnement plus pratique et intelligente, et indique également que l'interaction homme-machine sera plus naturelle dans l'avenir. l'avenir en douceur. Nous attendons avec impatience que Ferret-UI2 soit capable de surmonter les défis des scénarios multi-appareils à l'avenir et d'apporter une expérience utilisateur plus parfaite.