Apple ha lanzado una nueva generación del asistente de IA multiplataforma Ferret-UI2, que ha logrado avances revolucionarios en el reconocimiento de elementos de la interfaz de usuario, con una puntuación de prueba de 89,73, superando con creces la puntuación de 77,73 de GPT-4V. Ferret-UI2 puede comprender instrucciones en lenguaje natural, realizar automáticamente las operaciones correspondientes y es compatible con múltiples plataformas como iPhone, iPad, dispositivos Android, navegadores web y Apple TV. El editor de Downcodes le brindará una comprensión profunda de las poderosas funciones y detalles técnicos de este asistente de inteligencia artificial, así como su importancia para el futuro de la interacción persona-computadora.
Apple lanzó recientemente una nueva generación de sistema de inteligencia artificial, Ferret-UI2. Este asistente de IA multiplataforma ha logrado un gran avance en el reconocimiento de elementos de la interfaz de usuario, con una puntuación de prueba de 89,73, significativamente por delante de los 77,73 puntos de GPT-4V, lo que demuestra un rendimiento excelente.
La característica más importante de este sistema es su capacidad para comprender de forma inteligente las intenciones del usuario. A diferencia del método de operación tradicional basado en clics de coordenadas, Ferret-UI2 puede localizar y realizar automáticamente las operaciones correspondientes según las instrucciones en lenguaje natural del usuario. El equipo de investigación generó datos de entrenamiento con la ayuda de las capacidades visuales de GPT-4V, lo que permitió al sistema comprender mejor la relación espacial entre los elementos de la interfaz.

En términos de arquitectura técnica, Ferret-UI2 adopta un diseño adaptativo y puede identificar con precisión elementos de la interfaz de usuario en múltiples plataformas como iPhone, iPad, dispositivos Android, navegadores web y Apple TV. El sistema también está equipado con algoritmos inteligentes que pueden ajustar automáticamente la resolución de la imagen y los requisitos de procesamiento según diferentes plataformas, lo que garantiza la eficiencia informática local y al mismo tiempo conserva la integridad de la información.

Los datos de las pruebas reales muestran que el sistema funciona bien en varias plataformas: el iPhone funciona sin problemas, el iPad tiene una tasa de precisión del 68% y la tasa de éxito en dispositivos Android alcanza el 71%. Sin embargo, en escenarios entre dispositivos, como cambiar entre dispositivos móviles y TV o interfaces web, todavía existen ciertos desafíos, principalmente debido a las diferencias en los diseños de interfaz entre diferentes plataformas.
Vale la pena señalar que la competencia en el campo de la IA interactiva de UI es cada vez más feroz. Anthropic actualizó recientemente las capacidades de interacción de la interfaz de usuario de Claude3.5Sonnet, y Microsoft ha abierto la herramienta OmniParser, que se dedica a convertir el contenido de la pantalla en datos estructurados.
El marco CAMPHOR lanzado por Apple al mismo tiempo mejora aún más la capacidad del sistema para manejar tareas complejas mediante la cooperación de agentes profesionales de IA y agentes maestros de razonamiento. Esto significa que en el futuro, los asistentes de voz como Siri podrán completar tareas complejas, como reservas en restaurantes, de forma más inteligente, sin necesidad de que los usuarios operen manualmente la interfaz.
Este avance tecnológico no sólo mejora el nivel de inteligencia en las operaciones entre dispositivos, sino que también traza un plan de desarrollo claro para la próxima generación de interacción persona-computadora. A medida que la tecnología continúa evolucionando, están a nuestro alcance experiencias de interacción persona-computadora más inteligentes y naturales.
La aparición de Ferret-UI2 marca una nueva etapa en el desarrollo de asistentes de IA. Su sólida compatibilidad multiplataforma y sus capacidades de interacción inteligente brindan a los usuarios una experiencia operativa más conveniente e inteligente, y también indica que la interacción entre humanos y computadoras será más natural. el futuro. Esperamos que Ferret-UI2 pueda superar los desafíos de los escenarios entre dispositivos en el futuro y brindar una experiencia de usuario más perfecta.