Teknologi penentuan posisi target visual AI selalu menghadapi kemacetan akurasi. Para peneliti di Illinois Tech, Cisco Research Institute dan University of Central Florida telah mengembangkan kerangka kerja SEGVG untuk menyelesaikan masalah ini dan memberikan AI "visi definisi tinggi." Inti dari SEGVG adalah pemrosesan detail tingkat piksel, mengubah informasi kotak pembatas menjadi sinyal segmentasi, seperti mengenakan "kacamata definisi tinggi" untuk AI, yang memungkinkannya mengidentifikasi setiap piksel target dengan jelas.
Di bidang penglihatan AI, penentuan posisi target selalu menjadi masalah yang sulit. Algoritma tradisional seperti "miopia", yang hanya dapat mengelilingi target dengan "bingkai", tetapi tidak dapat melihat detail di dalamnya. Ini seperti ketika Anda menggambarkan seseorang kepada seorang teman dan hanya berbicara tentang perkiraan tinggi dan bentuk tubuhnya.
Untuk menyelesaikan masalah ini, sekelompok petinggi dari Illinois University of Technology, Cisco Research Institute dan University of Central Florida telah mengembangkan kerangka penentuan posisi visual baru yang disebut SEGVG, mengklaim membiarkan AI mengucapkan selamat tinggal pada "miopia" mulai sekarang!
Rahasia inti dari SegVG adalah: detail "tingkat piksel"! SegVG mengubah informasi kotak pembatas menjadi sinyal segmentasi, yang setara dengan menempatkan "kacamata definisi tinggi" pada AI, memungkinkan AI untuk melihat setiap piksel target dengan jelas!

Secara khusus, SEGVG mengadopsi "multi-layer multitasking encoder-decoder". Namanya kedengarannya rumit, tetapi Anda benar-benar dapat memahaminya sebagai "mikroskop" presisi super yang berisi kueri untuk regresi dan beberapa kueri untuk segmentasi. Sederhananya, ini adalah menggunakan "lensa" yang berbeda untuk melakukan tugas regresi kotak dan segmentasi, berulang kali mengamati target, dan mengekstrak informasi yang lebih halus.
Yang lebih menakjubkan adalah bahwa SegVG juga memperkenalkan "modul perataan ternal", yang setara dengan melengkapi AI dengan "penerjemah" untuk secara khusus menyelesaikan masalah "penyumbatan bahasa" antara parameter pra-pelatihan model dan penyematan kueri. Melalui mekanisme perhatian terner, "penerjemah" ini dapat "menerjemahkan" kueri, teks, dan fitur visual ke saluran yang sama, yang memungkinkan AI untuk lebih memahami informasi target.

Apa efek dari SegVG? telah mencapai hasil terobosan!
Selain posisi yang tepat, SEGVG juga dapat menghasilkan skor kepercayaan yang diprediksi oleh model. Sederhananya, AI akan memberi tahu Anda betapa yakinnya menilai dirinya sendiri. Ini sangat penting dalam aplikasi praktis.
Sumber terbuka SEGVG adalah manfaat utama untuk seluruh bidang AI Vision!
Alamat kertas: https://arxiv.org/pdf/2407.03200
Tautan kode: https://github.com/weitaikang/segvg/tree/main
Munculnya SEGVG menandai kemajuan yang signifikan dalam teknologi penentuan posisi target visual AI.