Tim peneliti Cina membuat terobosan besar dan berhasil menciptakan dataset AI multimodal publik terbesar "Infinity-MM", berdasarkan ini, dan melatih model kecil dengan kinerja Aquila-VL-2B kinerja yang sangat baik. Dataset ini berisi deskripsi gambar besar-besaran, data instruksi visual, dan data yang dihasilkan oleh model AI seperti GPT-4. Model Aquila-VL-2B telah mencapai hasil yang sangat baik dalam beberapa tes benchmark, dengan hanya 2 miliar parameter, tetapi memiliki skor tinggi 54,9% dalam tes dasar MMSTAR, dan juga luar biasa dalam tugas pemahaman matematika dan gambar Penggunaan data sintetis yang efektif, kinerja model telah ditingkatkan sebesar 2,4%. Lebih penting lagi, dataset dan model telah dibuka untuk komunitas penelitian, mendorong pengembangan AI open source.
Hasil penelitian ini menandai kemajuan yang signifikan di bidang AI multimodal China. . Makalah Infinity-MM dan proyek Aquila-VL-2B tersedia, silakan kunjungi tautan yang relevan untuk mempelajari lebih lanjut.