أحدث إصدار من Microsoft من Omniparser V2.0 هو أداة تحليل ثورية مصممة خصيصًا لتحويل لقطات واجهة المستخدم (UI) إلى تنسيقات بيانات منظمة. الهدف الأساسي لهذه الأداة هو مساعدة المستخدمين بشكل أكثر كفاءة على فهم المعلومات على الشاشة ومعالجتها من خلال تعزيز أداء وكلاء واجهة المستخدم النموذجية اللغوية الكبيرة (LLM). يمثل إطلاق Omniparser مرحلة جديدة في تقنية معالجة أتمتة واجهة المستخدم ، مما يوفر للمستخدمين تجربة تفاعلية أكثر ذكاءً.
لضمان كفاءة ودقة Omniparser ، قامت Microsoft بإنشاء مجموعتين من البيانات الرئيسية: مجموعة بيانات اكتشاف الأيقونات التفاعلية ومجموعة بيانات وصف الأيقونة. يستخلص عدد كبير من الأمثلة على المناطق القابلة للتنفيذ من صفحات الويب الشهيرة وتوضيحها من خلال تكنولوجيا التعليقات التوضيحية الآلية ؛ يوفر بناء مجموعات البيانات هذه أساسًا متينًا لتدريب وتحسين Omniparser.

في V2.0 ، حقق Omniparser تحسينات كبيرة في الأداء. مجموعة البيانات المحدثة ليست أكبر في الحجم فحسب ، بل أيضًا أعلى في الجودة ، مما يزيد من دقة وصف الأيقونة وتحديد المواقع بنسبة 60 ٪. بالإضافة إلى ذلك ، حقق هذا الإصدار اختراقًا كبيرًا في الكمون ، حيث يبلغ متوسط وقت المعالجة على جهاز A100 0.6 ثانية فقط/إطار و 0.8 ثانية/إطار على بطاقة رسومات 4090 واحدة. في اختبار ScreenSpot Pro ، وصل متوسط معدل دقة Omniparser إلى 39.6 ٪ ، مما يدل على قدراته التحليلية القوية.
يوفر مزيج سلس من Omniparser و Omnitool للمستخدمين تجربة تشغيل أكثر مرونة. مع Omnitool ، يمكن للمستخدمين بسهولة التحكم في أجهزة Windows 11 الظاهرية وتحديد النماذج المرئية المناسبة للحلية. حاليًا ، يدعم Omnitool مجموعة متنوعة من نماذج اللغة الكبيرة ، بما في ذلك إصدارات متعددة من Openai و Deepseek (R1) و Qwen (2.5VL) ، واستخدام الكمبيوتر الإنساني ، تلبية احتياجات المستخدمين المختلفين.
تتمثل الوظيفة الأساسية لـ Omniparser في تحويل صور لقطات الشاشة غير المهيكلة إلى قوائم منظمة من العناصر ، بما في ذلك موقع المناطق التفاعلية ووصف الوظائف المحتملة للأيقونات. هذه الأداة مناسبة للعديد من أنواع لقطات الشاشة ، والتي يمكن معالجتها بكفاءة ، سواء كانت واجهة الكمبيوتر أو واجهة الهاتف المحمول. ومع ذلك ، يحتاج المستخدمون إلى الحصول على مهارات تحليلية وتفكير نقدي معين أثناء الاستخدام ، لأنه على الرغم من أن Omniparser يمكنه استخراج المعلومات ، إلا أن الحكم النهائي لا يزال يتعين على المستخدم.
على الرغم من أن Omniparser يعمل بشكل جيد في تحليل واجهة المستخدم ، لا يمكن تجاهل حدوده. لا تدمج هذه الأداة وظائف الكشف عن المحتوى الضار ، لذلك يجب على المستخدمين تزويد الإدخال بحذر عند استخدامها للتأكد من أنها لا تحتوي على أي معلومات ضارة. بالإضافة إلى ذلك ، على الرغم من أن Omniparser يحول فقط لقطات الشاشة إلى نص ، إلا أنه لا يزال من الممكن استخدامه لإنشاء وكلاء واجهة مستخدم رسومية قابلة للتنفيذ. يجب على المطورين الالتزام الصارم بمعايير السلامة والأخلاق عند بناء وكلاء التشغيل لضمان الاستخدام المسؤول للتكنولوجيا.
لا يوفر إصدار Omniparser V2.0 أدوات قوية فقط لأتمتة واجهة المستخدم ، ولكن أيضًا يفتح إمكانيات جديدة للمطورين لاستكشاف المزيد من سيناريوهات التطبيق. سواء أكان تحسين تجربة المستخدم أو تحسين عمليات الأعمال ، فقد أظهر Omniparser إمكانات كبيرة. مع التكرار المستمر للتكنولوجيا ، نتطلع إلى رؤية المزيد من التطبيقات المبتكرة ودفع تقنية تحليل واجهة المستخدم إلى ارتفاع جديد.