A Apple lançou uma nova geração de assistente de IA multiplataforma Ferret-UI2, que fez progressos inovadores no reconhecimento de elementos de UI, com uma pontuação de teste de 89,73, excedendo em muito a pontuação de 77,73 do GPT-4V. Ferret-UI2 pode entender instruções em linguagem natural, executar automaticamente as operações correspondentes e oferecer suporte a várias plataformas, como iPhone, iPad, dispositivos Android, navegadores da web e Apple TV. O editor de Downcodes lhe dará uma compreensão profunda das poderosas funções e detalhes técnicos deste assistente de IA, bem como sua importância para o futuro da interação humano-computador.
A Apple lançou recentemente uma nova geração de sistema de inteligência artificial, Ferret-UI2. Este assistente de IA multiplataforma fez um grande avanço no reconhecimento de elementos de UI, com uma pontuação de teste de 89,73, significativamente à frente dos 77,73 pontos do GPT-4V, demonstrando excelente desempenho.
A maior característica deste sistema é a capacidade de compreender de forma inteligente as intenções do usuário. Diferente do método de operação tradicional baseado em cliques coordenados, o Ferret-UI2 pode localizar e executar automaticamente as operações correspondentes com base nas instruções de linguagem natural do usuário. A equipe de pesquisa gerou dados de treinamento com a ajuda dos recursos visuais do GPT-4V, permitindo ao sistema compreender melhor a relação espacial entre os elementos da interface.

Em termos de arquitetura técnica, o Ferret-UI2 adota um design adaptativo e pode identificar com precisão os elementos da UI em múltiplas plataformas, como iPhone, iPad, dispositivos Android, navegadores da web e Apple TV. O sistema também é equipado com algoritmos inteligentes que podem ajustar automaticamente a resolução da imagem e os requisitos de processamento de acordo com as diferentes plataformas, garantindo a eficiência da computação local e mantendo a integridade das informações.

Os dados reais dos testes mostram que o sistema funciona bem em várias plataformas: o iPhone funciona perfeitamente, o iPad tem uma taxa de precisão de 68% e a taxa de sucesso em dispositivos Android chega a 71%. No entanto, em cenários entre dispositivos, como alternar entre dispositivos móveis e interfaces de TV ou web, ainda existem alguns desafios, principalmente devido a diferenças nos layouts de interface entre diferentes plataformas.
É importante notar que a competição no campo da IA interativa de UI é cada vez mais acirrada. A Anthropic atualizou recentemente os recursos de interação da interface do usuário do Claude3.5Sonnet, e a Microsoft abriu o código-fonte da ferramenta OmniParser, que é dedicada à conversão do conteúdo da tela em dados estruturados.
Ao mesmo tempo, a estrutura CAMPHOR lançada pela Apple aprimora ainda mais a capacidade do sistema de lidar com tarefas complexas por meio da cooperação de agentes profissionais de IA e agentes de raciocínio mestres. Isso significa que, no futuro, assistentes de voz como o Siri serão capazes de realizar tarefas complexas, como reservas em restaurantes, de forma mais inteligente, sem exigir que os usuários operem manualmente a interface.
Este avanço tecnológico não só melhora o nível de inteligência nas operações entre dispositivos, mas também traça um plano de desenvolvimento claro para a próxima geração de interação humano-computador. À medida que a tecnologia continua a evoluir, experiências de interação humano-computador mais inteligentes e naturais estão ao nosso alcance.
O surgimento do Ferret-UI2 marca uma nova etapa no desenvolvimento de assistentes de IA. Sua forte compatibilidade entre plataformas e recursos de interação inteligente proporcionam aos usuários uma experiência operacional mais conveniente e inteligente, e também indica que a interação humano-computador será mais natural em. o futuro. Esperamos que o Ferret-UI2 seja capaz de superar os desafios dos cenários entre dispositivos no futuro e trazer uma experiência de usuário mais perfeita.