Baru -baru ini, tim peneliti Microsoft bekerja sama dengan para peneliti dari berbagai universitas untuk meluncurkan model AI multimodal yang disebut "Magma". Tujuan desain dari model ini adalah untuk melakukan tugas -tugas kompleks di lingkungan digital dan fisik dengan mengintegrasikan beberapa tipe data seperti gambar, teks dan video. Dengan pengembangan teknologi yang cepat, agen AI multimodal menjadi lebih dan lebih banyak digunakan dalam robotika, asisten virtual dan otomatisasi antarmuka pengguna.
Sistem AI sebelumnya biasanya berfokus pada satu bidang, seperti pemahaman penglihatan-bahasa atau operasi robot, membuatnya sulit untuk mengintegrasikan kedua kemampuan ini ke dalam model terpadu. Meskipun banyak model yang ada berkinerja baik di bidang tertentu, mereka memiliki kemampuan generalisasi yang buruk dalam skenario aplikasi yang berbeda. Misalnya, model PIX2ACT dan webgum berkinerja baik dalam navigasi UI, sementara OpenVLA dan RT-2 lebih cocok untuk manipulasi robot, tetapi mereka sering membutuhkan pelatihan secara terpisah dan sulit untuk melewati batas antara lingkungan digital dan fisik.
Peluncuran model "magma" justru untuk mengatasi keterbatasan ini. Ini mengintegrasikan pemahaman multimodal, penentuan posisi aksi dan kemampuan perencanaan dengan memperkenalkan metode pelatihan yang kuat untuk memungkinkan agen AI beroperasi dengan mulus di berbagai lingkungan. Dataset pelatihan Magma berisi 39 juta sampel yang mencakup gambar, video, dan lintasan gerak robot. Selain itu, model ini mengadopsi dua teknologi inovatif: set-of-mark (SOM) dan Trace-of-Mark (TOM). Yang pertama memungkinkan model untuk menandai objek visual yang dapat ditindaklanjuti di lingkungan UI, sementara yang terakhir memungkinkannya untuk melacak pergerakan objek dari waktu ke waktu, sehingga meningkatkan kemampuan perencanaan tindakan di masa depan.
"Magma" mengadopsi arsitektur pembelajaran dalam dan teknik pra-pelatihan skala besar untuk mengoptimalkan kinerjanya di berbagai bidang. Model ini menggunakan tulang punggung visual ConvNext-XXL untuk memproses gambar dan video, dan model bahasa LLAMA-3-8B bertanggung jawab untuk memproses input teks. Arsitektur ini memungkinkan "magma" untuk secara efisien mengintegrasikan visi, bahasa, dan eksekusi tindakan. Setelah pelatihan komprehensif, model ini telah mencapai hasil yang sangat baik pada beberapa tugas, menunjukkan pemahaman multimodal yang kuat dan kemampuan penalaran spasial.
Pintu Masuk Proyek: https://microsoft.github.io/magma/
Poin -Poin Kunci:
Model magma telah dilatih dalam beberapa sampel dan memiliki kemampuan pembelajaran multimodal yang kuat.
Model ini berhasil mengintegrasikan visi, bahasa dan tindakan, mengatasi keterbatasan model AI yang ada.
Magma telah berkinerja baik dalam beberapa tolok ukur, menunjukkan generalisasi yang kuat dan pengambilan keputusan dan kemampuan eksekusi yang sangat baik.