Конкуренция между искусственным интеллектом в области распознавания изображений становится все более жесткой, а традиционные задачи классификации больше не могут удовлетворить потребности. В настоящее время являются более сложными задачами идентификации, такие как выявление спортивных автомобилей определенного года и модели, или различие тонких различий в птичьих перьях. Эти задачи не только требуют высоких возможностей распознавания, но и должны объяснить основу для признания, которая является проблемой, стоящей перед нынешними нейронными сетями.
Хотя нейронные сети хорошо работают в задачах признания, они часто кажутся недобросовестными, когда их просят объяснить процесс принятия решений. Хотя метод традиционной карты активации класса (CAM) может указывать на ключевые области внимания к нейронной сети, он не может подробно объяснить «почему» эти области. Особенно, когда сталкиваются с чрезвычайно похожими объектами, нейронные сети часто могут дать только расплывчатые ответы и не могут точно различать нюансы.

Чтобы решить эту проблему, исследовательская группа Университета штата Огайо разработала новую технологию под названием Finer-Cam. Finer-Cam может более точно идентифицировать уникальные и отличительные функции, сравнивая различия в функциях между целевыми категориями и аналогичными категориями. Этот подход не только повышает точность распознавания, но и повышает интерпретацию нейронных сетей.
Основная идея Finer-Cam-повысить способность распознавания посредством «контрастного обучения». В отличие от традиционной идентификации в одной категории, Finer-Cam сравнивает целевые категории с аналогичными категориями, чтобы выяснить различия между ними. Этот метод похож на игру «Все, кто найдет вину». Благодаря сравнительному анализу, Finer-Cam может более точно определить эти тонкие, но отличительные характеристики.

Преимущества Finer-CAM не только отражаются в точности распознавания, но и в его способности эффективно удалять фоновые помехи и сосредоточиться на ключевых особенностях цели. Традиционные методы CAM часто влияют на фоновый шум, что приводит к недостаточным результатам распознавания. Благодаря сравнительному анализу, Finer-Cam может отфильтровать не относящуюся к делу справочной информации, что делает результаты идентификации более чистыми и более точными.
Кроме того, Finer-Cam также хорошо работает в мультимодальном обучении. Он может не только обрабатывать данные изображения, но и определить их в сочетании с описаниями текста. Эта возможность делает Finer-Cam более гибкой при обработке сложных задач и может обеспечить точные результаты идентификации на основе различных типов ввода.
Появление Finer-Cam знаменует собой новый шаг в технологии распознавания изображений. Это не только повышает точность распознавания, но и повышает интерпретацию нейронных сетей, что позволяет ИИ дать более уверенные ответы более уверенно при столкновении с сложными задачами.
Проект: https://github.com/imageomics/finer-cam
Демо: https: //colab.research.google.com/drive/1pllrl7vszvd5r71rgx3yoexebmitkt90