Di bidang kecerdasan buatan multimodal, Zhiyuan Research Institute telah bekerja sama dengan banyak universitas untuk meluncurkan model vektor multimodal baru BGE-VL. Inovasi ini menandai terobosan besar dalam teknologi pengambilan multimodal. Sejak diluncurkan, model Seri BGE telah dipuji secara luas karena kinerjanya yang luar biasa, dan peluncuran BGE-VL lebih lanjut memperkaya ekosistem ini. Model ini berkinerja sangat baik dalam banyak tugas utama seperti pengambilan grafik dan teks dan pengambilan gambar gabungan, menunjukkan posisi terkemuka di bidang pengambilan multimodal.
Keberhasilan BGE-VL tidak dapat dipisahkan dari teknologi sintesis data Megapairs di belakangnya. Metode inovatif ini secara signifikan meningkatkan skalabilitas dan kualitas data dengan menambang data grafik dan teks skala besar yang ada. Megapairs mampu menghasilkan beragam set data dengan biaya yang sangat rendah, dan berisi lebih dari 26 juta sampel memberikan fondasi yang kuat untuk melatih model pengambilan multimodal. Teknologi ini telah memungkinkan BGE-VL untuk mencapai hasil utama dalam beberapa tolok ukur pencarian multimodal utama, lebih lanjut mengkonsolidasikan posisinya di industri.

Dengan meningkatnya pengembangan teknologi pengambilan multimodal, kebutuhan pengguna untuk perolehan informasi menjadi semakin beragam. Model pengambilan sebelumnya sebagian besar bergantung pada satu pasangan grafik untuk pelatihan, dan tidak dapat secara efektif menangani input gabungan yang kompleks. BGE-VL berhasil mengatasi keterbatasan ini dengan memperkenalkan data Megapairs, yang memungkinkan model untuk memahami dan memproses kueri multimodal secara lebih komprehensif, sehingga memberi pengguna layanan pengambilan yang lebih akurat.
Dalam evaluasi kinerja beberapa tugas, tim Zhiyuan menemukan bahwa model BGE-VL berkinerja sangat baik pada benchmark embedding multimodal besar (MMEB). Meskipun megapair tidak mencakup sebagian besar tugas di MMEB, kemampuan generalisasi tugasnya masih menarik. Selain itu, dalam evaluasi pengambilan gambar gabungan, BGE-VL juga melakukan secara luar biasa, secara signifikan melampaui banyak model terkenal, seperti Google Magiclens dan Embed MM Nvidia, lebih lanjut membuktikan posisi terkemuka di bidang pengambilan multimoda.

Ke depan, Zhiyuan Research Institute berencana untuk terus memperdalam teknologi Megapairs, menggabungkan dengan skenario pencarian multimodal yang lebih kaya, dan berusaha untuk membuat pencari multimodal yang lebih komprehensif dan efisien untuk menyediakan layanan informasi yang lebih akurat kepada pengguna. Dengan pengembangan teknologi multimodal yang berkelanjutan, peluncuran BGE-VL tidak diragukan lagi akan mempromosikan eksplorasi dan inovasi lebih lanjut dalam bidang terkait dan menyuntikkan dorongan baru ke dalam kemajuan teknologi kecerdasan buatan.
Alamat kertas: https://arxiv.org/abs/2412.14475
Homepage Proyek: https://github.com/vectorspacelab/megapairs
Alamat model: https://huggingface.co/baai/bge-vl-mllm-s1