Kompetisi di antara kecerdasan buatan di bidang pengakuan gambar menjadi semakin sengit, dan tugas klasifikasi tradisional tidak dapat lagi memenuhi kebutuhan. Tugas identifikasi yang lebih kompleks sekarang menjadi arus utama, seperti mengidentifikasi mobil sport pada tahun dan model tertentu, atau membedakan perbedaan halus dalam bulu burung. Tugas-tugas ini tidak hanya membutuhkan kemampuan pengakuan presisi tinggi, tetapi juga perlu menjelaskan dasar untuk pengakuan, yang merupakan tantangan yang dihadapi jaringan saraf saat ini.
Meskipun jaringan saraf berkinerja baik dalam tugas pengakuan, mereka sering tampak tidak bermoral ketika diminta untuk menjelaskan proses pengambilan keputusan mereka. Meskipun metode peta aktivasi kelas tradisional (CAM) dapat menunjukkan bidang -bidang utama yang menjadi perhatian bagi jaringan saraf, itu tidak dapat menjelaskan secara rinci "mengapa" area ini diperhatikan. Terutama ketika menghadapi benda yang sangat mirip, jaringan saraf seringkali hanya dapat memberikan jawaban yang tidak jelas dan tidak dapat secara akurat membedakan nuansa.

Untuk mengatasi tantangan ini, tim peneliti Universitas Negeri Ohio telah mengembangkan teknologi baru yang disebut Finer-Cam. Finer-Cam dapat lebih akurat mengidentifikasi fitur unik dan khas dengan membandingkan perbedaan fitur antara kategori target dan kategori serupa. Pendekatan ini tidak hanya meningkatkan keakuratan pengakuan, tetapi juga meningkatkan interpretabilitas jaringan saraf.
Gagasan inti dari CAM yang lebih halus adalah untuk meningkatkan kemampuan pengakuan melalui "pembelajaran kontras". Tidak seperti identifikasi kategori tunggal tradisional, Finer-Cam membandingkan kategori target dengan kategori yang sama untuk mengetahui perbedaan di antara mereka. Metode ini mirip dengan permainan "semua orang yang menemukan kesalahan".

Keuntungan dari Finer-Cam tidak hanya tercermin dalam akurasi pengakuan, tetapi juga dalam kemampuannya untuk secara efektif menghilangkan gangguan latar belakang dan fokus pada fitur-fitur utama target. Metode CAM tradisional sering dipengaruhi oleh kebisingan latar belakang, menghasilkan hasil pengakuan yang tidak mencukupi. Melalui analisis komparatif, CAM yang lebih halus dapat menyaring informasi latar belakang yang tidak relevan, membuat hasil identifikasi lebih bersih dan lebih akurat.
Selain itu, Finer-Cam juga berkinerja baik dalam pembelajaran multimodal. Ini tidak hanya dapat memproses data gambar, tetapi juga mengidentifikasinya dalam kombinasi dengan deskripsi teks. Kemampuan ini membuat CAM yang lebih halus lebih fleksibel saat menangani tugas-tugas kompleks, dan dapat memberikan hasil identifikasi yang akurat berdasarkan jenis input yang berbeda.
Munculnya CAM yang lebih halus menandai langkah baru dalam teknologi pengenalan gambar. Ini tidak hanya meningkatkan keakuratan pengakuan, tetapi juga meningkatkan interpretabilitas jaringan saraf, memungkinkan AI untuk memberikan jawaban yang akurat lebih percaya diri ketika menghadapi tugas yang kompleks.
Proyek: https://github.com/imageomics/finer-cam
Demo: https: //colab.research.google.com/drive/1pllrl7vszvd5r71rgx3yoexebmitkt90