A versão mais recente da Microsoft do Omniparser v2.0 é uma ferramenta de análise revolucionária projetada especificamente para converter as capturas de tela da interface do usuário (UI) em formatos de dados estruturados. O objetivo principal dessa ferramenta é ajudar os usuários a entender e manipular informações com mais eficiência, aprimorando o desempenho de agentes de interface do usuário de grande idioma (LLM). O lançamento do Omniparser marca um novo estágio na tecnologia de processamento de automação da interface do usuário, fornecendo aos usuários uma experiência interativa mais inteligente.
Para garantir a eficiência e a precisão do Omnipars, a Microsoft construiu cuidadosamente dois conjuntos de dados principais: o conjunto de dados de detecção de ícones interativo e o conjunto de dados de descrição do ícone. Os extratos anteriores um grande número de exemplos de áreas clicáveis e acionáveis de páginas da web populares e as anotam com a tecnologia de anotação automatizada; A construção desses conjuntos de dados fornece uma base sólida para o treinamento e otimização do Omnipars.

Na v2.0, o Omniparser alcançou melhorias significativas de desempenho. O conjunto de dados atualizado não é apenas maior em escala, mas também maior em qualidade, o que aumenta a precisão da descrição e posicionamento do ícone em 60%. Além disso, esta versão fez um avanço significativo na latência, com o tempo médio de processamento no dispositivo A100 sendo apenas 0,6 segundos/quadros e 0,8 segundos/quadros em uma única placa gráfica 4090. No teste do Screenspot Pro, a taxa média de precisão do Omnipars atingiu 39,6%, demonstrando seus fortes recursos analíticos.
A combinação perfeita de Omnipars e Omnitool fornece aos usuários uma experiência operacional mais flexível. Com o Omnitool, os usuários podem controlar facilmente as máquinas virtuais do Windows 11 e selecionar modelos visuais apropriados para análise. Atualmente, o Omnitool suporta uma variedade de modelos de idiomas grandes, incluindo várias versões de OpenAI, Deepseek (R1), Qwen (2.5VL) e uso antrópico de computador, atendendo às necessidades de diferentes usuários.
A função principal do omnipars é converter imagens de captura de tela não estruturadas em listas estruturadas de elementos, incluindo a localização de áreas interativas e a descrição das funcionalidades potenciais dos ícones. Essa ferramenta é adequada para muitos tipos de capturas de tela, que podem ser processadas com eficiência, seja a interface do PC ou a interface do telefone celular. No entanto, os usuários precisam ter certas habilidades analíticas e pensamento crítico durante o uso, porque, embora o Omnipars possa extrair informações, o julgamento final ainda precisa ser feito pelo usuário.
Embora o Omnipars tenha um bom desempenho na análise da interface do usuário, suas limitações não podem ser ignoradas. Essa ferramenta não integra as funções de detecção de conteúdo prejudiciais; portanto, os usuários devem fornecer informações com cuidado ao usá -la para garantir que não contenha nenhuma informação prejudicial. Além disso, embora o Omnipars apenas converte capturas de tela em texto, ele ainda pode ser usado para criar agentes de interface gráfica de usuário acionáveis. Os desenvolvedores devem cumprir estritamente os padrões de segurança e a ética ao criar e operar agentes para garantir o uso responsável da tecnologia.
O lançamento do Omniparser v2.0 não apenas fornece ferramentas poderosas para a automação da interface do usuário, mas também abre novas possibilidades para os desenvolvedores explorarem mais cenários de aplicativos. Seja melhorando a experiência do usuário ou otimizando os processos de negócios, o Omniparser mostrou um grande potencial. Com a iteração contínua da tecnologia, estamos ansiosos para ver aplicativos mais inovadores emergirem e empurrar a tecnologia de análise de interface do usuário a uma nova altura.