Dalam beberapa tahun terakhir, model bahasa besar (LLM) telah membuat kemajuan terobosan di bidang kecerdasan buatan, terutama dalam fusi multimodal. Sebuah tim bersama dari Universitas Sains dan Teknologi Huazhong, Bytedance dan University of Hong Kong baru -baru ini mengusulkan kerangka kerja generasi multimodal yang inovatif - cair, yang bertujuan untuk memecahkan keterbatasan model multimodal arus utama saat ini dalam pemrosesan visual. Munculnya teknologi ini menandai pengembangan lebih lanjut dari kecerdasan buatan di bidang multimodal.
Mockup multimodal tradisional sering mengandalkan modul penglihatan eksternal yang kompleks, yang tidak hanya meningkatkan kompleksitas sistem, tetapi juga membatasi skalabilitas dan fleksibilitasnya. Inovasi Liquid adalah bahwa ia mengadopsi VQGAN sebagai segmenter kata gambar dan meninggalkan ketergantungannya pada komponen visual eksternal. Dengan menyandikan gambar menjadi token visual diskrit, Liquid memungkinkan model untuk berbagi daftar kata secara langsung dengan token teks, dengan demikian mencapai pemahaman visual "asli" dan kemampuan generasi. Desain ini sangat menyederhanakan struktur model sambil meningkatkan skalabilitasnya.
Studi ini menemukan bahwa cairan tidak hanya secara signifikan mengurangi biaya pelatihan, tetapi juga mengungkapkan aturan skala kemampuan multimodal dan LLM. Tim peneliti melakukan percobaan pada LLM dengan ukuran yang berbeda (dari 0,5b hingga 32b). Hasil penelitian menunjukkan bahwa ketika skala model diperluas, kinerja dan kualitas generasi tugas generasi visualnya mengikuti pola penskalaan yang konsisten dengan tugas bahasa. Yang lebih menarik adalah bahwa ada hubungan fasilitasi dua arah antara pemahaman visual dan tugas generatif, yaitu, keduanya dapat mencapai optimasi bersama melalui ruang representasi bersama. Penemuan ini memberikan dasar teori penting untuk desain model multimodal di masa depan.
Desain Liquid sepenuhnya mewujudkan minimalisme, memperlakukan gambar dan teks secara setara, mengadopsi kerangka pemrosesan terpadu. Selama proses konstruksi, tim peneliti menggunakan data teks 30m dan data teks-teks 30m untuk meletakkan dasar untuk pelatihan multimoda model. Hasil percobaan akhir menunjukkan bahwa cairan memiliki kinerja yang sangat baik dalam pemahaman multimodal, pembuatan gambar, dan tugas teks biasa, dan konsistensi semantik antara gambar dan teks yang dihasilkan secara signifikan lebih tinggi daripada model autoregresif lainnya. Hasil ini menunjukkan potensi besar cairan dalam aplikasi praktis.
Proposal Liquid memberikan ide -ide baru untuk desain arsitektur kecerdasan multimodal umum, menunjukkan bahwa kecerdasan buatan dapat mengantarkan evolusi yang lebih efisien dan fleksibel di masa depan fusi multimodal. Keberhasilan teknologi ini tidak hanya mempromosikan penelitian di bidang multimodal, tetapi juga membuka kemungkinan baru untuk penerapan kecerdasan buatan dalam skenario yang lebih praktis.
Tautan kertas: https://arxiv.org/pdf/2412.04332