أصدرت Apple جيلًا جديدًا من مساعد الذكاء الاصطناعي Ferret-UI2 متعدد المنصات، والذي حقق تقدمًا كبيرًا في التعرف على عناصر واجهة المستخدم، حيث حصل على درجة اختبار بلغت 89.73، وهو ما يتجاوز بكثير درجة 77.73 الخاصة بـ GPT-4V. يمكن لـ Ferret-UI2 فهم تعليمات اللغة الطبيعية، وإجراء العمليات المقابلة تلقائيًا، ودعم منصات متعددة مثل iPhone وiPad وأجهزة Android ومتصفحات الويب وApple TV. سيمنحك محرر Downcodes فهمًا متعمقًا للوظائف القوية والتفاصيل الفنية لمساعد الذكاء الاصطناعي هذا، بالإضافة إلى أهميته بالنسبة لمستقبل التفاعل بين الإنسان والكمبيوتر.
أصدرت شركة Apple مؤخرًا جيلًا جديدًا من نظام الذكاء الاصطناعي Ferret-UI2. حقق مساعد الذكاء الاصطناعي متعدد المنصات هذا تقدمًا كبيرًا في التعرف على عناصر واجهة المستخدم، حيث حصل على درجة اختبار بلغت 89.73، متقدمًا بشكل كبير على نقطة GPT-4V البالغة 77.73 نقطة، مما يدل على الأداء الممتاز.
أكبر ميزة لهذا النظام هي قدرته على فهم نوايا المستخدم بذكاء. يختلف Ferret-UI2 عن طريقة التشغيل التقليدية القائمة على النقرات الإحداثية، حيث يمكنه تحديد موقع العمليات المقابلة وتنفيذها تلقائيًا بناءً على تعليمات اللغة الطبيعية للمستخدم. وقام فريق البحث بتوليد بيانات التدريب بمساعدة القدرات البصرية لـGPT-4V، مما يسمح للنظام بفهم العلاقة المكانية بين عناصر الواجهة بشكل أفضل.

فيما يتعلق بالبنية التقنية، يعتمد Ferret-UI2 تصميمًا متكيفًا ويمكنه تحديد عناصر واجهة المستخدم بدقة على منصات متعددة مثل iPhone وiPad وأجهزة Android ومتصفحات الويب وApple TV. وقد تم تجهيز النظام أيضًا بخوارزميات ذكية يمكنها ضبط دقة الصورة ومتطلبات المعالجة تلقائيًا وفقًا لمنصات مختلفة، مما يضمن كفاءة الحوسبة المحلية مع الحفاظ على سلامة المعلومات.

تُظهر بيانات الاختبار الفعلية أن النظام يعمل بشكل جيد على منصات مختلفة: يعمل iPhone بسلاسة، ويتمتع iPad بمعدل دقة يصل إلى 68%، ويصل معدل النجاح على أجهزة Android إلى 71%. ومع ذلك، في السيناريوهات عبر الأجهزة، مثل التبديل بين الأجهزة المحمولة والتلفزيون أو واجهات الويب، لا تزال هناك بعض التحديات، ويرجع ذلك أساسًا إلى الاختلافات في تخطيطات الواجهة بين الأنظمة الأساسية المختلفة.
ومن الجدير بالذكر أن المنافسة في مجال الذكاء الاصطناعي التفاعلي لواجهة المستخدم تزداد شراسة. قامت Anthropic مؤخرًا بترقية إمكانات تفاعل واجهة المستخدم الخاصة بـ Claude3.5Sonnet، كما قامت Microsoft بفتح المصدر لأداة OmniParser، المخصصة لتحويل محتوى الشاشة إلى بيانات منظمة.
يعمل إطار عمل CAMPHOR الذي أطلقته Apple في نفس الوقت على تعزيز قدرة النظام على التعامل مع المهام المعقدة من خلال التعاون مع وكلاء الذكاء الاصطناعي المحترفين ووكلاء الاستدلال الرئيسي. وهذا يعني أنه في المستقبل، سيكون المساعدون الصوتيون مثل Siri قادرين على إكمال المهام المعقدة مثل حجوزات المطاعم بشكل أكثر ذكاءً، دون مطالبة المستخدمين بتشغيل الواجهة يدويًا.
لا يؤدي هذا التقدم التكنولوجي إلى تحسين مستوى الذكاء في العمليات عبر الأجهزة فحسب، بل يرسم أيضًا مخططًا تنمويًا واضحًا للجيل القادم من التفاعل بين الإنسان والحاسوب. مع استمرار تطور التكنولوجيا، أصبحت تجارب التفاعل بين الإنسان والحاسوب أكثر ذكاءً وطبيعية في متناول اليد.
يمثل ظهور Ferret-UI2 مرحلة جديدة في تطوير مساعدي الذكاء الاصطناعي، حيث يوفر توافقها القوي عبر الأنظمة الأساسية وقدرات التفاعل الذكي للمستخدمين تجربة تشغيل أكثر ملاءمة وذكاءً، ويشير أيضًا إلى أن التفاعل بين الإنسان والحاسوب سيكون أكثر طبيعية في المستقبل. المستقبل. نحن نتطلع إلى أن يتمكن Ferret-UI2 من التغلب على تحديات السيناريوهات عبر الأجهزة في المستقبل وتقديم تجربة مستخدم أكثر مثالية.