أصبحت المنافسة بين الذكاء الاصطناعي في مجال التعرف على الصور شرسة بشكل متزايد ، ولم تعد مهام التصنيف التقليدية تلبية الاحتياجات. أصبحت مهام تحديد الهوية الأكثر تعقيدًا الآن ، مثل تحديد السيارات الرياضية في سنة ونموذج معين ، أو تمييز الاختلافات الدقيقة في ريش الطيور. لا تتطلب هذه المهام فقط قدرات التعرف على الدقة العالية ، ولكنها تحتاج أيضًا إلى شرح أساس الاعتراف ، وهو التحدي الذي يواجه الشبكات العصبية الحالية.
على الرغم من أن الشبكات العصبية تؤدي أداءً جيدًا في مهام الاعتراف ، إلا أنها غالبًا ما تظهر عديمي الضمير عندما يُطلب منها شرح عملية صنع القرار الخاصة بهم. على الرغم من أن طريقة خريطة تنشيط الطبقة التقليدية (CAM) يمكن أن تشير إلى المجالات الرئيسية التي تهم الشبكات العصبية ، إلا أنها لا يمكن أن تشرح بالتفصيل "لماذا" يتم الانتباه إلى هذه المناطق. خاصة عند مواجهة كائنات متشابهة للغاية ، يمكن للشبكات العصبية في كثير من الأحيان أن تعطي إجابات غامضة فقط ولا يمكنها التمييز بدقة على الفروق الدقيقة.

لمواجهة هذا التحدي ، طور فريق أبحاث جامعة ولاية أوهايو تقنية جديدة تسمى Finer-Cam. يمكن لـ Finer-Cam تحديد ميزات فريدة ومميزة بشكل أكثر دقة من خلال مقارنة اختلافات الميزة بين الفئات المستهدفة والفئات المماثلة. هذا النهج لا يحسن دقة الاعتراف فحسب ، بل يعزز أيضًا تفسير الشبكات العصبية.
الفكرة الأساسية لـ FINER-CAM هي تعزيز قدرة التعرف من خلال "التعلم على النقيض". على عكس تحديد الفئة الواحدة التقليدية ، يقارن Finer-CAM الفئات المستهدفة مع فئات مماثلة لمعرفة الاختلافات بينها. تشبه هذه الطريقة لعبة "Come Come Find Fault". من خلال التحليل المقارن ، يمكن لـ Finer-Cam تحديد موقع تلك الخصائص الدقيقة ولكن المميزة.

لا تنعكس مزايا أرقام CAM فقط في دقة التعرف ، ولكن أيضًا في قدرتها على إزالة تداخل الخلفية بشكل فعال والتركيز على الميزات الرئيسية للهدف. غالبًا ما تتأثر طرق CAM التقليدية بضوضاء الخلفية ، مما يؤدي إلى عدم كفاية نتائج التعرف. من خلال التحليل المقارن ، يمكن لـ FINER-CAM تصفية معلومات أساسية غير ذات صلة ، مما يجعل نتائج تحديد الهوية أنظف وأكثر دقة.
بالإضافة إلى ذلك ، يؤدي Finer-Cam أيضًا أداءً جيدًا في التعلم متعدد الوسائط. لا يمكنها معالجة بيانات الصورة فحسب ، بل يمكنها أيضًا تحديدها مع أوصاف النص. تجعل هذه الإمكانية أكثر مرونة عند التعامل مع المهام المعقدة ، ويمكن أن توفر نتائج تعريف دقيقة على أساس أنواع المدخلات المختلفة.
يمثل ظهور أرقام كام خطوة جديدة في تكنولوجيا التعرف على الصور. إنه لا يحسن دقة الاعتراف فحسب ، بل يعزز أيضًا تفسير الشبكات العصبية ، مما يسمح لـ AI بإعطاء إجابات دقيقة بثقة أكبر عند مواجهة المهام المعقدة.
المشروع: https://github.com/imageomics/finer-cam
Demo: https: //colab.research.google.com/drive/1pllrl7vszvd5r71rgx3yoexebmitkt90