Apple dan Institut Teknologi Federal Swiss (EPFL) telah bersama-sama meluncurkan model penglihatan multimodal sumber terbuka yang disebut 4M-21. Dengan keserbagunaan dan fleksibilitasnya yang sangat baik, model 4M-21 telah menjadi bintang baru di bidang pembelajaran multimodal. Meskipun skala parameternya hanya 3 miliar, jauh lebih kecil dari beberapa model besar utama, ia dapat menunjukkan keunggulan dalam lusinan tugas seperti klasifikasi gambar, deteksi objek, segmentasi semantik, segmentasi instan, estimasi kedalaman, estimasi normal, dll. Kinerja.
Inovasi inti dari model 4M-21 terletak pada teknologi konversi "token diskrit". Teknologi ini dapat secara seragam mengonversi data dari berbagai mode, seperti gambar, peta fitur jaringan saraf, vektor, data terstruktur, dan teks, menjadi sekuens token yang dapat dimengerti oleh model. Transformasi ini tidak hanya menyederhanakan proses pelatihan model, tetapi juga memberikan fondasi yang kuat untuk fusi dan pemrosesan data multimodal. Melalui teknologi ini, 4M-21 dapat secara efisien memproses beberapa tipe data, sehingga menunjukkan kemampuan yang kuat dalam pembelajaran multimodal.

Selama proses pelatihan, 4M-21 mengadopsi metode pemodelan topeng. Metode ini memaksa model untuk mempelajari struktur statistik dan hubungan potensial dari data input dengan menyumbat bagian token secara acak dalam urutan input dan memprediksi bagian -bagian yang tersumbat berdasarkan token yang tersisa. Pemodelan topeng tidak hanya meningkatkan kemampuan generalisasi model, tetapi juga secara signifikan meningkatkan akurasinya dalam tugas generasi. Penerapan metode ini memungkinkan 4M-21 untuk menangkap kesamaan informasi dan interaksi antara berbagai mode dalam pembelajaran multimodal.
Para peneliti melakukan evaluasi ekstensif 4M-21, yang mencakup beberapa tugas seperti klasifikasi gambar, deteksi objek, segmentasi semantik, segmentasi instan, estimasi kedalaman, estimasi normal permukaan, dan estimasi pose manusia 3D. Hasil evaluasi menunjukkan bahwa 4M-21 berkinerja dalam tugas-tugas ini yang sebanding dengan model canggih saat ini, dan bahkan melampaui teknologi yang ada dalam beberapa tugas. Ini sepenuhnya menunjukkan kemampuan luar biasa 4M-21 dalam pemrosesan multimodal.
Poin -Poin Kunci:
- Apple dan Federal Institute of Technology of Lausanne, Swiss, bersama-sama bersumber dari model 4M-21, yang telah menjadi pencapaian penting di bidang pembelajaran multimodal dengan fleksibilitas dan fleksibilitasnya yang luas.
- 4M-21 dapat berkinerja baik dalam lusinan tugas seperti klasifikasi gambar, deteksi objek, segmentasi semantik, segmentasi instan, estimasi kedalaman, estimasi normal permukaan, dll.
- Teknologi inti 4M-21 adalah konversi "token diskrit", yang dapat mengubah data dari beberapa modalitas menjadi urutan token yang dapat dimengerti token.