Baru -baru ini, Alibaba Tongyi Lab mengumumkan sumber terbuka dari hasil R&D terbarunya - Vidorag, sistem pencarian peningkatan generasi (RAG) yang dirancang khusus untuk pemahaman dokumen visual. Tes Vidorag pada model GPT-4O menunjukkan bahwa tingkat akurasinya mencapai 79,4% yang mengesankan, yang lebih dari 10% lebih tinggi dari sistem kain tradisional. Terobosan ini menandai langkah penting dalam bidang pemrosesan dokumen visual dan memberikan kemungkinan baru untuk penerapan kecerdasan buatan dalam pemahaman dokumen yang kompleks.

Vidorag bukan model tunggal tradisional, tetapi mengadopsi desain kerangka kerja multi-agen yang inovatif. Sistem ini menggabungkan agen inferensi iteratif dinamis dan teknologi pengambilan hibrida berdasarkan GMM (model hibrida Gaussian). Pendekatan ini memungkinkan Vidorag untuk mengekstrak dan menyimpulkan informasi kunci secara lebih akurat saat memproses dokumen visual yang berisi gambar dan teks. Dibandingkan dengan keterbatasan sistem kain tradisional yang hanya mengandalkan pengambilan teks, Vidorag secara signifikan meningkatkan kinerja melalui fusi data multimodal.
Tongyi Lab menjelaskan secara rinci bagaimana Vidorag bekerja dalam makalah dan repositori kode yang diterbitkan. Intinya terletak pada penyesuaian secara dinamis proses pencarian dan pembuatan melalui kolaborasi beberapa agen, sehingga mengurangi fenomena "ilusi" dalam skenario kompleks (mis., Model ini menghasilkan konten yang tidak akurat atau dibuat) dan meningkatkan keandalan dan relevansi kontekstual jawaban.
Sistem ini memiliki akurasi 79,4% pada GPT-4O, angka yang tidak hanya menunjukkan kinerjanya yang sangat baik, tetapi juga membandingkannya dengan sistem kain tradisional. Sementara sistem kain tradisional berkinerja baik dalam tugas pembuatan teks, mereka sering terbatas pada kemampuan pengambilan mode tunggal saat memproses dokumen visual, dan akurasinya biasanya melayang pada tingkat rendah. Vidorag telah meningkatkan tingkat akurasi lebih dari 10 poin persentase dengan memperkenalkan integrasi informasi visual dan informasi teks yang mendalam. Kemajuan ini sangat penting untuk skenario yang membutuhkan pemahaman dokumen presisi tinggi, seperti analisis dokumen hukum, interpretasi laporan medis dan pemrosesan data perusahaan.
Langkah Alibaba Tongyi Lab ke Open Source Vidorag juga memicu diskusi panas di Twitter. Pengguna percaya bahwa pengungkapan sistem ini tidak hanya mencerminkan kekuatan teknis Alibaba di bidang AI, tetapi juga menyediakan sumber daya yang berharga bagi pengembang dan peneliti global. Melalui makalah dan kode publik (tautan yang relevan telah dibagikan di posting Twitter), Vidorag diharapkan untuk mempercepat penelitian dan penerapan teknologi rag dokumen visual dan mempromosikan pengembangan lebih lanjut dari sistem AI multimodal.
Rilis dan sumber terbuka Vidorag tidak diragukan lagi telah membuka arah baru untuk teknologi RAG. Dengan meningkatnya permintaan untuk pemrosesan dokumen visual, kemunculan Vidorag mungkin hanya permulaan, dan kita mungkin melihat sistem inovatif yang lebih mirip muncul di masa depan.
Proyek: https://github.com/alibaba-nlp/vidorag