La concurrence entre l'intelligence artificielle dans le domaine de la reconnaissance de l'image devient de plus en plus féroce et les tâches de classification traditionnelles ne peuvent plus répondre aux besoins. Les tâches d'identification plus complexes sont désormais courantes, comme l'identification des voitures de sport d'une année et d'un modèle particulier, ou distinguant des différences subtiles dans les plumes d'oiseaux. Ces tâches nécessitent non seulement des capacités de reconnaissance de haute précision, mais doivent également expliquer la base de la reconnaissance, qui est le défi auquel sont confrontés les réseaux neuronaux actuels.
Bien que les réseaux de neurones fonctionnent bien dans les tâches de reconnaissance, ils semblent souvent sans scrupule lorsqu'ils ont été invités à expliquer leur processus décisionnel. Bien que la méthode traditionnelle de la carte d'activation de la classe (CAM) puisse souligner des domaines clés d'attention sur le réseau neuronal, il ne peut pas expliquer en détail le «pourquoi» ces zones sont suivies. Surtout face à des objets extrêmement similaires, les réseaux de neurones ne peuvent souvent donner que des réponses vagues et ne peuvent pas distinguer avec précision les nuances.

Pour relever ce défi, l'équipe de recherche de l'Ohio State University a développé une nouvelle technologie appelée Finer-Cam. Fine-CAM peut identifier plus précisément les fonctionnalités uniques et distinctives en comparant les différences de fonctionnalités entre les catégories cibles et les catégories similaires. Cette approche améliore non seulement la précision de la reconnaissance, mais améliore également l'interprétabilité des réseaux de neurones.
L'idée principale de la cam plus fine est d'améliorer la capacité de reconnaissance par "l'apprentissage du contraste". Contrairement à l'identification traditionnelle d'une catégorie, plus fine-CAM compare les catégories cibles avec des catégories similaires pour découvrir les différences entre elles. Cette méthode est similaire au jeu "tout le monde Coming Fault".

Les avantages de la cam plus fine se reflètent non seulement dans la précision de la reconnaissance, mais également dans sa capacité à supprimer efficacement les interférences d'arrière-plan et à se concentrer sur les caractéristiques clés de la cible. Les méthodes CAM traditionnelles sont souvent affectées par le bruit de fond, ce qui entraîne des résultats de reconnaissance insuffisants. Grâce à une analyse comparative, la CAM plus fine peut filtrer les informations générales non pertinentes, ce qui rend les résultats d'identification plus propres et plus précis.
De plus, Finer-CAM fonctionne également bien dans l'apprentissage multimodal. Il peut non seulement traiter les données d'image, mais également les identifier en combinaison avec les descriptions de texte. Cette capacité rend plus flexible à CAM plus fine lors de la gestion des tâches complexes et peut fournir des résultats d'identification précis basés sur différents types d'entrée.
L'émergence de CAM plus fine marque une nouvelle étape dans la technologie de reconnaissance d'image. Il améliore non seulement la précision de la reconnaissance, mais améliore également l'interprétabilité des réseaux de neurones, permettant à l'IA de donner des réponses précises plus en toute confiance lorsqu'ils sont confrontés à des tâches complexes.
Projet: https://github.com/imageomics/finer-cam
Demo: https: //colab.research.google.com/drive/1PLLrl7vszvd5r71rgx3yoexebmitkt90