Universitas Nanjing dan Institut Penelitian Megvii berkolaborasi untuk mengembangkan paradigma model visual besar tanpa pengawasan yang disebut SeVa, yang secara efektif memecahkan masalah penyelarasan preferensi model bahasa visual. Teknologi terobosan ini tidak memerlukan partisipasi manual atau GPT-4. Teknologi ini secara signifikan mengurangi biaya penyelarasan dengan membuat data preferensi secara otomatis, meningkatkan kemampuan mengikuti instruksi model, mengurangi halusinasi, dan telah mencapai hasil luar biasa dalam beberapa pengujian benchmark. Inti dari SeVa adalah menggunakan teknologi augmentasi gambar untuk menghasilkan sampel positif dan negatif, dan menggunakannya untuk melatih model, yang pada akhirnya mencapai keselarasan preferensi manusia yang efektif.
Inti dari teknologi ini adalah secara otomatis membuat saluran data preferensi. Dengan membandingkan keluaran model sebelum dan sesudah penyelarasan preferensi, perubahan dapat terlihat dengan jelas. Para peneliti menemukan bahwa augmentasi gambar kecil sekalipun dapat memberikan jawaban berbeda kepada VLM untuk pertanyaan yang sama. Oleh karena itu, mereka menggunakan jawaban gambar asli sebagai sampel positif dan jawaban gambar yang diperbesar sebagai sampel negatif untuk pelatihan.

Hasil eksperimen SeVa sangat mengesankan. Hanya menggunakan 8k data tanpa pengawasan yang dibuat telah secara signifikan meningkatkan kemampuan mengikuti instruksi VLM, mengurangi halusinasi, dan mencapai peningkatan signifikan dalam multi-modal dan tolok ukur lainnya. Yang lebih penting lagi, metode ini sederhana, berbiaya rendah, dan tidak memerlukan anotasi manusia atau GPT-4.
Hasil pengujian pada berbagai tolok ukur menunjukkan bahwa SeVa memiliki keunggulan signifikan dalam meningkatkan penyelarasan preferensi manusia terhadap model visual. Khususnya pada bangku MMVet dan LLaVA yang dievaluasi oleh GPT-4, kinerja SeVa sangat luar biasa. Selain itu, SeVa juga dapat menghasilkan jawaban yang lebih panjang dan detail, dengan konsistensi yang lebih tinggi pada setiap jawaban, serta lebih tahan terhadap gangguan suhu yang berbeda.
Penelitian ini tidak hanya memberikan solusi efektif terhadap masalah penyelarasan model visual berukuran besar, tetapi juga membuka kemungkinan baru bagi pengembangan bidang AI. Dengan open source SeVa, kami memperkirakan akan lebih banyak peneliti dan pengembang yang menggunakan paradigma ini untuk mendorong pengembangan lebih lanjut teknologi AI di masa depan. Di era yang penuh dengan kemungkinan tak terbatas ini, mari kita nantikan lebih banyak kejutan yang dibawa oleh teknologi AI.
Alamat proyek: https://github.com/Kevinz-code/SeVa
Sumber terbuka SeVa akan mendorong pengembangan teknologi model visual besar, menyediakan alat dan metode baru bagi peneliti dan pengembang, dan selanjutnya meningkatkan kinerja dan penerapan AI visual. Keberhasilan penelitian ini menunjukkan potensi besar pembelajaran tanpa pengawasan dalam memecahkan masalah penyelarasan AI dan menunjukkan arah baru bagi pengembangan teknologi AI di masa depan.