Dalam beberapa tahun terakhir, model bahasa multimodal berskala besar telah membuat kemajuan signifikan di bidang kecerdasan buatan. Hari ini, editor Downcodes akan memperkenalkan model yang disebut ORYX, yang dikembangkan bersama oleh para peneliti dari Universitas Tsinghua, Tencent, dan Universitas Teknologi Nanyang. Model ini telah menunjukkan kemampuan yang mengesankan di bidang pemrosesan visual. ORYX bukan sekadar sistem pengenalan gambar sederhana. Ia dapat memahami hubungan spatio-temporal dalam gambar, video, dan adegan 3D, dan bahkan dapat membedakan cerita di balik konten seperti manusia pemrosesan visual. Mari kita lihat lebih dekat apa yang membuat ORYX unik.
Saat ini, dengan pesatnya perkembangan kecerdasan buatan, model bahasa multi-modal berskala besar yang disebut ORYX secara diam-diam mengubah pemahaman kita tentang kemampuan AI untuk memahami dunia visual. Sistem AI yang dikembangkan bersama oleh para peneliti dari Universitas Tsinghua, Tencent, dan Universitas Teknologi Nanyang ini dapat disebut sebagai Transformer di bidang pemrosesan visual.
ORYX, nama lengkap Oryx Multi-Modal Large Language Models, adalah model AI yang dirancang khusus untuk memproses pemahaman spatio-temporal gambar, video, dan pemandangan 3D. Keunggulan intinya adalah ia tidak hanya dapat memahami konten visual seperti manusia, tetapi juga memahami hubungan antara konten dan cerita di baliknya.

Salah satu yang menarik dari sistem AI ini adalah kemampuannya memproses masukan visual pada resolusi apa pun. Baik itu foto lama yang buram atau video definisi tinggi, ORYX dapat mengatasinya dengan mudah. Hal ini berkat model OryxViT yang telah dilatih sebelumnya, yang dapat mengonversi gambar dengan resolusi berbeda ke dalam format terpadu yang dapat dimengerti oleh AI.
Yang lebih menakjubkan lagi adalah kemampuan kompresi dinamis ORYX. Dihadapkan dengan input video jangka panjang, ia dapat dengan cerdas memampatkan informasi dan mempertahankan konten utama tanpa distorsi. Ini seperti menyaring buku yang berat menjadi kartu catatan yang kaya, yang tidak hanya menyimpan informasi inti, namun juga sangat meningkatkan efisiensi pemrosesan.

Prinsip kerja ORYX terutama bergantung pada dua komponen inti: encoder visual OryxViT dan modul kompresi dinamis. Yang pertama bertanggung jawab untuk memproses beragam masukan visual, sedangkan yang kedua memastikan bahwa data berkapasitas besar seperti video jangka panjang dapat diproses secara efisien.
Dalam penerapan praktisnya, ORYX telah menunjukkan potensi yang luar biasa. Ia tidak hanya dapat memahami konten video secara mendalam, termasuk objek, plot, dan tindakan, tetapi juga secara akurat memahami posisi dan hubungan objek dalam ruang 3D. Kemampuan pemahaman visual yang komprehensif ini menghadirkan kemungkinan tak terbatas pada interaksi manusia-komputer di masa depan, pemantauan cerdas, mengemudi otonom, dan bidang lainnya.
Perlu disebutkan bahwa ORYX telah berkinerja baik dalam berbagai tolok ukur bahasa visual, terutama dalam pemahaman spasial dan temporal atas gambar, video, dan data 3D multi-tampilan, yang menunjukkan keunggulan terdepan.
Inovasi ORYX tidak hanya terletak pada kemampuan pemrosesannya yang kuat, namun juga membuka paradigma baru untuk pemahaman visual AI. Ia dapat memproses masukan visual pada resolusi asli sambil memproses video panjang secara efisien melalui teknologi kompresi dinamis. Fleksibilitas dan efisiensi semacam ini sulit dicapai oleh model AI lainnya.
Seiring dengan kemajuan teknologi, ORYX diharapkan memainkan peran yang lebih penting dalam bidang AI di masa depan. Ini tidak hanya akan membantu mesin memahami dunia visual kita dengan lebih baik, tetapi juga dapat memberikan ide-ide baru untuk simulasi proses kognitif manusia.
Alamat makalah: https://arxiv.org/pdf/2409.12961
Kemampuan multi-modal ORYX dan metode pemrosesan yang efisien telah membawa kemungkinan-kemungkinan baru dalam bidang visi AI, dan pengembangannya di masa depan patut untuk dinantikan. Editor Downcodes percaya bahwa seiring dengan semakin berkembangnya teknologi, ORYX akan memainkan peran penting di lebih banyak bidang dan mendorong kemajuan berkelanjutan dalam teknologi kecerdasan buatan.