Situs web resmi www.binance.com/zh-cn :Masukkan situs web resmi ☜☜
Aplikasi: ☞☞ Unduh Aplikasi Resmi☜☜
Di bidang kecerdasan buatan, penalaran visual selalu menjadi topik yang sangat menantang. Tim peneliti Groundlight baru -baru ini mengumumkan sumber terbuka kerangka kerja AI baru, yang diharapkan untuk sepenuhnya mengubah kinerja AI di bidang visi. Kerangka kerja ini tidak hanya memungkinkan AI untuk mengenali objek dalam gambar, tetapi juga memungkinkan mereka untuk menyimpulkan informasi yang lebih dalam dari gambar seperti detektif.
Saat ini, AI telah membuat kemajuan yang signifikan dalam pengenalan gambar, tetapi masih ada kekurangan yang jelas dalam memahami hubungan logis di balik gambar. Peneliti Groundlight menunjukkan bahwa model bahasa visual yang ada (VLM) seringkali keluar dari pikiran mereka ketika berhadapan dengan tugas yang membutuhkan interpretasi mendalam. Ini terutama karena mereka masih memiliki keterbatasan dalam memahami gambar itu sendiri, apalagi melakukan penalaran yang kompleks.

Terlepas dari keberhasilan besar model bahasa besar (LLM) dalam penalaran tekstual, terobosan serupa di bidang penglihatan masih terbatas. VLM yang ada sering berkinerja buruk ketika mereka perlu menggabungkan isyarat visual dan tekstual untuk pengurangan logis, yang memperlihatkan cacat kunci dalam kemampuan mereka. Jauh dari cukup untuk mengidentifikasi objek dalam gambar, dan memahami hubungan dan informasi konteks antara objek adalah kuncinya.
Untuk meningkatkan kemampuan penalaran visual VLM, tim peneliti Groundlight secara inovatif mengadopsi metode pembelajaran penguatan dan menggunakan GRPO (optimasi kebijakan rasio gradien) untuk meningkatkan efisiensi pembelajaran. Metode ini telah mencapai hasil yang luar biasa dalam tugas retak kriptografi, dan model dengan hanya 3 miliar parameter telah mencapai tingkat akurasi 96%. Analisis perhatian menunjukkan bahwa model ini mampu berpartisipasi aktif dalam input visual saat menyelesaikan tugas dan fokus pada area dekoder yang relevan.
Namun, pelatihan VLM dengan GRPO tidak lancar, terutama ketika datang ke segmentasi kata dan desain hadiah. Karena model sering memproses teks sebagai karakter leksikal daripada tunggal, itu bisa sulit untuk tugas yang membutuhkan penalaran tingkat karakter yang tepat. Untuk mengatasi masalah ini, para peneliti menambahkan ruang antara huruf -huruf pesan untuk menyederhanakan proses decoding.
Desain hadiah adalah tautan penting lainnya, karena model pembelajaran penguatan membutuhkan umpan balik yang terstruktur dengan baik untuk belajar secara efektif. Para peneliti menggunakan tiga jenis hadiah: format hadiah untuk memastikan konsistensi output; decoding imbalan untuk mendorong konversi yang bermakna dari teks -teks yang kacau; dan imbalan kebenaran untuk meningkatkan akurasi. Dengan menyeimbangkan imbalan ini dengan hati -hati, para peneliti berhasil menghindari "jalan pintas" yang tidak terduga yang dipelajari model, memastikan bahwa itu benar -benar meningkatkan kemampuan menguraikan kriptografisnya.
GRPO mengoptimalkan proses pembelajaran dengan membandingkan beberapa output daripada mengandalkan perhitungan gradien langsung, yang membawa stabilitas lebih tinggi untuk pelatihan. Pendekatan ini mencapai kurva belajar yang lebih halus dengan menghasilkan banyak respons untuk setiap kueri dan mengevaluasi satu sama lain. Studi ini juga menyoroti potensi VLM dalam tugas-tugas berbasis penalaran, tetapi juga mengakui tingginya biaya komputasi model visual yang kompleks.
Untuk menyelesaikan masalah efisiensi, tim Groundlight yang diusulkan teknologi seperti peningkatan model selektif, yaitu menggunakan model yang lebih mahal hanya dalam situasi yang tidak jelas. Selain itu, mereka menyarankan mengintegrasikan deteksi objek pretrained, segmentasi, dan model estimasi kedalaman untuk meningkatkan inferensi tanpa secara signifikan meningkatkan overhead komputasi. Pendekatan berbasis alat ini memberikan alternatif yang dapat diskalakan untuk melatih model end-to-end yang besar, menekankan efisiensi dan akurasi.
Tim Groundlight telah membuat kemajuan yang signifikan dalam meningkatkan VLM dengan mengintegrasikan teknologi pembelajaran penguatan, terutama GRPO. Mereka menguji metode mereka dalam tugas pemecahan kata sandi, dan model menunjukkan akurasi yang mengesankan. Terobosan ini tidak hanya menunjukkan potensi VLM dalam tugas penalaran visual yang kompleks, tetapi juga memberikan arahan baru untuk penelitian AI di masa depan.
Proyek: https://github.com/groundlight/r1_vlm
Demo: https: //huggingface.co/spaces/groundlight/grpo-vlm-decoder