ذات مرة ، كانت إمكانات التعرف المرئي للذكاء الاصطناعي لا تزال تقتصر على الفئات المسبقة والأنماط الثابتة ، كما لو كان يرتدي "مرشحًا" ثقيلًا ولا يمكن تحديده إلا وفقًا لـ "البرنامج النصي" المعمول به. ومع ذلك ، مع التطور السريع للتكنولوجيا ، تم كسر هذا الموقف تمامًا. يشبه Yoloe ، هذا نموذج الذكاء الاصطناعى الجديد ، "فنانًا بصريًا" يكسر القيود. إنه يودع تمامًا "العقيدة الصلبة" للكشف عن الكائنات التقليدية ويفتح حقبة جديدة من "كل شيء يمكن الاعتراف به في الوقت الفعلي". تخيل أن الذكاء الاصطناعى لم يعد بحاجة إلى الاعتماد على علامات الفئة المحددة مسبقًا ، ولكن يمكن أن يفهم بسرعة كل شيء أمامك مثل البشر ، فقط عن طريق أوصاف النص ، صور طمس ، وحتى مع حلقات صغيرة. هذا الاختراق التخريبي هو التغيير الصادم الذي جلبته يولو.
يبدو أن ولادة يولو قد وضعت زوجًا من "عيون الحرية" الحقيقية على الذكاء الاصطناعي. لم يعد يتعرف على كائنات محددة مسبقًا مثل سلسلة Yolo في الماضي ، ولكنها تصبح "لاعبًا شاملًا". سواء أكان ذلك أوامر نصية أو مطالبات مرئية أو "وضع الاختبار الأعمى" ، يمكن لـ Yoloe التقاط أي كائن وفهمه بسهولة في الصورة في الوقت الفعلي. جعلت هذه القوة العظمى من "الاعتراف غير المتجول" قدرات الإدراك البصري من الذكاء الاصطناعى اتخاذ خطوة ثورية نحو المرونة والذكاء البشري.

لذا ، كيف قام يولو بتطوير هذه القدرة على "رؤية كل شيء"؟ تكمن الإجابة في وحداتها الثلاثة المبتكرة: reprta و SAVPE و LRPC. يشبه Reprta "فك ترميز النص" الخاص بـ AI ، والذي يمكنه فهم تعليمات النص بدقة وتحويل أوصاف النص إلى "خرائط التنقل" للاعتراف المرئي ؛ Savpe هو "محلل الصور" من الذكاء الاصطناعي ، والذي يمكنه استخراج أدلة المفاتيح منها ويقفل بسرعة في الأهداف حتى عند مواجهة صور غير واضحة ؛ و LRPC هي "مهارة فريدة من نوعها Yoloe. حتى بدون أي مطالبات ، يمكنه مسح الصور بشكل مستقل ، و "استرداد" وتحديد جميع الأشياء التسمية من مكتبة مفردات ضخمة ، وإدراك حقًا حالة "لا معلم".
من منظور الهندسة المعمارية التقنية ، ورث Yoloe التصميم الكلاسيكي لعائلة Yolo ، لكنه جعل ابتكارات جريئة في المكونات الأساسية. لا يزال يحتوي على شبكة عمود فقير قوي وشبكة رقبة عموم ، وهي مسؤولة عن الصور "تشريح" واستخراج الميزات المرئية متعددة المستويات. يشبه رأس العودة والرأس المنقسمة "الحماية اليسرى واليسرى" ، أحدهما مسؤول عن تأطير حدود الكائن بدقة ، والآخر مسؤول عن تحديد الخطوط العريضة للكائن. إن الاختراق الأكثر أهمية يكمن في رأس جسم يولو. إنه ينفصل عن قيود "المصنفات" التقليدية YOLO وبدلاً من ذلك يبني "مساحة دلالية" أكثر مرونة ، ووضع الأساس للاعتراف المجاني للمفردات المفتوحة. سواء أكان ذلك مطالبة بالنص أو إرشادات مرئية ، يمكن لـ Yoloe تحويل هذه المعلومات متعددة الوسائط إلى "إشارة موجهة" موحدة من خلال وحدات reprta و savpe ، تمامًا مثل توجيه الاتجاه إلى الذكاء الاصطناعي.
من أجل التحقق من القوة القتالية الحقيقية لـ Yoloe ، أجرى فريق البحث سلسلة من الاختبارات الصلبة. على مجموعة بيانات LVIS الموثوقة ، توضح Yoloe قدرة على اكتشاف عينة صفرية مذهلة ، وتحقق توازنًا مثاليًا من الكفاءة والأداء تحت أحجام مختلفة للموديلات ، تمامًا مثل "لاعب خفيف الوزن" يلعب "ملاكمة الوزن الثقيل". تثبت البيانات التجريبية أن Yoloe ليس لديه سرعة تدريب أسرع فحسب ، بل يتمتع أيضًا بدقة اعتراف أعلى ، متجاوزًا مؤشرات رئيسية متعددة. الأمر الأكثر إثارة للدهشة هو أن Yoloe يدمج أيضًا مهامتين رئيسيتين: اكتشاف الكائنات وتقسيم المثيلات ، والتي يمكن تسميتها "تخصص واحد ومتعدد الطاقة" ، مما يدل على إمكانيات قوية للمعالجة متعددة المهام. حتى في السيناريوهات الأكثر صرامة "NO Form" ، لا تزال Yoloe تعمل بشكل جيد ، وقدراتها على التعرف المستقلة مثيرة للإعجاب.
يوضح التحليل البصري بشكل أكثر حدًا "ثمانية عشر فنون عسكرية" من Yoloe: تحت مطالبات النص ، يمكنه تحديد كائنات الفئات المحددة بدقة ؛ في مواجهة أي وصف نص ، يمكنه أيضًا "اتباع الخريطة" ؛ تحت إشراف القرائن البصرية ، يمكن أن "يفهم العقل" ؛ وفي الوضع الصامت ، يمكنه أيضًا "استكشاف مستقل". يسهل استخدام Yoloe في سيناريوهات معقدة مختلفة ، مما يدل تمامًا على قدرات التعميم القوية وآفاق التطبيق الواسعة.
ظهور Yoloe ليس فقط ترقية رئيسية لعائلة Yolo ، ولكن أيضًا ابتكارًا مزعجًا في مجال اكتشاف الكائن بأكمله. إنه يكسر "حواجز فئة" النماذج التقليدية ويسمح بقدرات الذكاء الاصطناعي بالانتقال حقًا إلى "عالم مفتوح". في المستقبل ، من المتوقع أن تُظهر Yoloe نقاط قوته في مجالات القيادة المستقلة ، والأمن الذكي ، والملاحة الروبوت ، وما إلى ذلك ، فتح الاحتمالات اللانهائية لتطبيقات رؤية الذكاء الاصطناعى ، والسماح للآلات أن يكون لها حقًا الحكمة "لفهم العالم".