في مجال الذكاء الاصطناعي متعدد الوسائط ، تعاون معهد أبحاث Zhiyuan مع العديد من الجامعات لإطلاق نموذج المتجه متعدد الوسائط الجديد BGE-VL. يمثل هذا الابتكار اختراقًا كبيرًا في تكنولوجيا الاسترجاع متعددة الوسائط. منذ إطلاقها ، تم الإشادة على نطاق واسع بنماذج سلسلة BGE لأدائها المتميز ، وقد أدى إطلاق BGE-VL إلى إثراء هذا النظام الإيكولوجي. كان هذا النموذج أداءً جيدًا بشكل خاص في العديد من المهام الرئيسية مثل استرجاع الرسوم والاسترجاع النصية واسترجاع الصور المشترك ، مما يدل على وضعه الرئيسي في مجال استرجاع الوسائط المتعددة.
إن نجاح BGE-VL لا ينفصل عن تقنية توليف بيانات Megapairs وراءها. تعمل هذه الطريقة المبتكرة على تحسين قابلية التوسع وجودة البيانات بشكل كبير من خلال استخراج البيانات الرسومية والنصية الموجودة على نطاق واسع. Megapairs قادرة على إنشاء مجموعات بيانات متنوعة بتكلفة منخفضة للغاية ، ويوفر تحتوي على أكثر من 26 مليون عينة أساسًا متينًا لتدريب نماذج استرجاع الوسائط المتعددة. مكنت هذه التكنولوجيا BGE-VL من تحقيق النتائج الرائدة في معايير البحث المتعددة الوسائط المتعددة ، مما زاد من توحيد موقعها في الصناعة.

مع زيادة التطوير لتكنولوجيا الاسترجاع متعددة الوسائط ، أصبحت احتياجات المستخدمين للحصول على المعلومات أكثر تنوعًا. تعتمد نماذج الاسترجاع السابقة في الغالب على زوج رسومي واحد للتدريب ، ولا يمكن أن تتعامل بشكل فعال مع المدخلات المدمجة المعقدة. يتغلب BGE-VL بنجاح على هذا القيد من خلال إدخال بيانات Megapairs ، مما يسمح للنموذج بفهم الاستعلامات المتعددة الوسائط بشكل شامل ، وبالتالي تزويد المستخدمين بخدمات استرجاع أكثر دقة.
في تقييم الأداء للمهام المتعددة ، وجد فريق Zhiyuan أن نموذج BGE-VL كان أداءً جيدًا بشكل خاص على معيار التضمين متعدد الوسائط الضخم (MMEB). على الرغم من أن Megapairs لا تغطي معظم المهام في MMEB ، إلا أن قدرات تعميم المهام لا تزال مثيرة. بالإضافة إلى ذلك ، في تقييم استرجاع الصور المشترك ، أجرى BGE-VL أيضًا بشكل كبير ، حيث تجاوزت بشكل كبير العديد من النماذج المعروفة ، مثل Magiclens من Google و NVIDIA MM ، مما يثبت وضعه الرئيسي في مجال استرجاع متعدد الوسائط.

في المستقبل ، يخطط معهد Zhiyuan Research لمواصلة تعميق تقنية Megapairs ، والاندماج مع سيناريوهات البحث المتعدد الوسائط الأكثر ثراءً ، ويسعى جاهدة لإنشاء باحث متعدد الوسائط أكثر شمولاً وتزويد المستخدمين بخدمات معلومات أكثر دقة. من خلال التطوير المستمر للتكنولوجيا متعددة الوسائط ، سيعزز إطلاق BGE-VL بلا شك مزيد من الاستكشاف والابتكار في المجالات ذات الصلة وضخ الدافع الجديد في تقدم تكنولوجيا الذكاء الاصطناعي.
عنوان الورق: https://arxiv.org/abs/2412.14475
Project Homepage: https://github.com/vectorspacelab/megapairs
عنوان النموذج: https://huggingface.co/baai/bge-vl-mllm-s1