Microsoft의 최신 Omniparser v2.0 릴리스는 사용자 인터페이스 (UI) 스크린 샷을 구조화 된 데이터 형식으로 변환하도록 특별히 설계된 혁신적인 구문 분석 도구입니다. 이 도구의 핵심 목표는 LLM (Lange Language Model) 유도 UI 에이전트의 성능을 향상시켜 사용자가 화면의 정보를보다 효율적으로 이해하고 조작하는 것입니다. Omniparser가 출시되면 UI 자동화 처리 기술의 새로운 단계가되어 사용자에게보다 지능적인 대화식 경험을 제공합니다.
Omniparser의 효율성과 정확성을 보장하기 위해 Microsoft는 대화식 아이콘 감지 데이터 세트 및 아이콘 설명 데이터 세트의 두 가지 주요 데이터 세트를 신중하게 구성했습니다. 전자는 인기있는 웹 페이지에서 클릭 가능하고 실행 가능한 많은 예를 추출하고 후자는 각 UI 요소를 해당 기능과 일치시키는 데 중점을 두어 구문 분석 도구에 대한 더 풍부한 문맥 정보를 제공합니다. 이 데이터 세트의 구성은 Omniparser의 교육 및 최적화를위한 견고한 기반을 제공합니다.

v2.0에서 Omniparser는 상당한 성능 향상을 달성했습니다. 업데이트 된 데이터 세트는 규모가 커도 크지 만 품질이 높아져 아이콘 설명 및 위치의 정확도를 60%증가시킵니다. 또한이 버전은 대기 시간에 상당한 돌파구를 만들었으며 A100 장치의 평균 처리 시간은 단일 4090 그래픽 카드에서 0.6 초/프레임과 0.8 초/프레임입니다. Screenspot Pro 테스트에서 Omniparser의 평균 정확도는 39.6%에 이르렀으며, 이는 강력한 분석 기능을 보여줍니다.
Omniparser와 Omnitool의 완벽한 조합은 사용자에게보다 유연한 운영 경험을 제공합니다. Omnitool을 사용하면 사용자는 Windows 11 가상 머신을 쉽게 제어하고 구문 분석에 적합한 시각적 모델을 선택할 수 있습니다. 현재 Omnitool은 OpenAI, DeepSeek (R1), Qwen (2.5VL) 및 인류 컴퓨터 사용을 포함한 다양한 대형 언어 모델을 지원하여 다양한 사용자의 요구를 충족시킵니다.
Omniparser의 핵심 기능은 대화 형 영역의 위치 및 아이콘의 잠재적 기능에 대한 설명을 포함하여 구조화되지 않은 스크린 샷 이미지를 구조화 된 요소 목록으로 변환하는 것입니다. 이 도구는 PC 인터페이스이든 휴대폰 인터페이스이든 효율적으로 처리 할 수있는 많은 유형의 스크린 샷에 적합합니다. 그러나 사용 중에 특정 분석 기술과 비판적 사고가 필요합니다. Omniparser는 정보를 추출 할 수 있지만 사용자가 최종 판단을 내려야하기 때문입니다.
Omniparser는 UI 구문 분석에서 잘 수행되지만 한계는 무시할 수 없습니다. 이 도구는 유해한 콘텐츠 감지 기능을 통합하지 않으므로 사용자는 유해한 정보가 포함되어 있지 않도록 조심스럽게 입력을 제공해야합니다. 또한 Omniparser는 스크린 샷 만 텍스트로 변환하지만 여전히 실행 가능한 그래픽 사용자 인터페이스 에이전트를 빌드하는 데 사용할 수 있습니다. 개발자는 책임있는 기술 사용을 보장하기 위해 에이전트를 구축하고 운영 할 때 안전 표준과 윤리를 엄격히 준수해야합니다.
Omniparser v2.0의 출시는 UI 자동화를위한 강력한 도구를 제공 할뿐만 아니라 개발자가 더 많은 응용 프로그램 시나리오를 탐색 할 수있는 새로운 가능성을 열어줍니다. Omniparser는 사용자 경험을 향상 시키거나 비즈니스 프로세스를 최적화하든 큰 잠재력을 보여주었습니다. 지속적인 기술 반복으로, 우리는보다 혁신적인 응용 프로그램이 등장하고 UI 분석 기술을 새로운 높이로 추진하기를 기대합니다.