Microsoft выпускает Omniparser v2.0: преобразование скриншотов в структурированные форматы LLM - статьи AI

Автор：Eve Cole Время обновления：2025-02-17 22:48:02

Последний выпуск Microsoft Omniparser v2.0 - это революционный инструмент анализа, разработанный специально для преобразования экрана пользовательского интерфейса (UI) в структурированные форматы данных. Основная цель этого инструмента-помочь пользователям более эффективно понимать и манипулировать информацией на экране, повышая производительность агентов пользовательского интерфейса, ориентированных на большую языковой модели (LLM). Запуск Omniparser отмечает новый этап в технологии обработки автоматизации пользовательского интерфейса, предоставляя пользователям более интеллектуальный интерактивный опыт.

Чтобы обеспечить эффективность и точность Omniparser, Microsoft тщательно построила два набора данных ключевых данных: набор данных интерактивного обнаружения значков и набор данных описания значка. Первые извлекают большое количество примеров кликационных и действенных областей из популярных веб -страниц и аннотируют их с помощью автоматизированной технологии аннотации; Конструкция этих наборов данных обеспечивает прочную основу для обучения и оптимизации Omniparser.

В v2.0 Omniparser добился значительных улучшений производительности. Обновленный набор данных не только больше по масштабе, но и выше качества, что повышает точность описания и позиционирования значков на 60%. Кроме того, эта версия сделала значительный прорыв в задержке, причем среднее время обработки на устройстве A100 составило всего 0,6 секунды/кадр и 0,8 секунды/кадр на одной графической карте 4090. В тесте Screenspot Pro средний уровень точности Omniparser достиг 39,6%, демонстрируя его сильные аналитические возможности.

Бесплатная комбинация Omniparser и Omnitool предоставляет пользователям более гибкий опыт работы. С помощью Omnitool пользователи могут легко управлять виртуальными машинами Windows 11 и выбирать соответствующие визуальные модели для анализа. В настоящее время Omnitool поддерживает множество крупных языковых моделей, в том числе несколько версий OpenAI, DeepSeek (R1), QWEN (2,5VL) и антропного компьютера, что отвечает потребностям разных пользователей.

Основной функцией Omniparser является преобразование неструктурированных изображений экрана в структурированные списки элементов, включая местоположение интерактивных областей и описание потенциальных функций икон. Этот инструмент подходит для многих типов скриншотов, которые можно эффективно обрабатывать, будь то интерфейс ПК или интерфейс мобильного телефона. Тем не менее, пользователи должны обладать определенными аналитическими навыками и критическим мышлением во время использования, потому что, хотя Omniparser может извлечь информацию, пользователь все еще должен вынести окончательное суждение.

Хотя Omniparser хорошо работает в анализе пользовательского интерфейса, его ограничения нельзя игнорировать. Этот инструмент не интегрирует вредные функции обнаружения контента, поэтому пользователи должны предоставлять ввод с осторожностью при его использовании, чтобы убедиться, что он не содержит никакой вредной информации. Кроме того, хотя Omniparser только преобразует скриншоты в текст, его все еще можно использовать для создания действенных графических агентов интерфейса пользователя. Разработчики должны строго соблюдать стандарты безопасности и этику при строительстве и операционных агентах, чтобы обеспечить ответственное использование технологий.

Выпуск Omniparser v2.0 не только предоставляет мощные инструменты для автоматизации пользовательского интерфейса, но и открывает новые возможности для разработчиков для изучения большего количества сценариев приложений. Будь то улучшение пользовательского опыта или оптимизация бизнес -процессов, Omniparser продемонстрировал большой потенциал. Благодаря непрерывной итерации технологий, мы с нетерпением ждем, чтобы появиться в более инновационных приложениях и подтолкнуть технологию анализа пользовательского интерфейса к новой высоте.