في الآونة الأخيرة ، أعلنت مختبر Alibaba Tongyi عن المصدر المفتوح لأحدث نتائج البحث والتطوير - Vidorag ، وهو نظام للبحث المحسن (RAG) المصمم خصيصًا لفهم الوثائق البصرية. أظهر اختبار Vidorag على نموذج GPT-4O أن معدل دقةه وصل إلى 79.4 ٪ مثيرة للإعجاب ، وهو أعلى من 10 ٪ من أنظمة الخرقة التقليدية. يمثل هذا الاختراق خطوة مهمة في مجال معالجة المستندات المرئية ويوفر إمكانيات جديدة لتطبيق الذكاء الاصطناعي في فهم الوثائق المعقدة.

Vidorag ليس نموذجًا واحدًا تقليديًا ، ولكنه يعتمد تصميمًا مبتكرًا متعدد الوكلاء. يجمع النظام بين عوامل الاستدلال التكراري الديناميكي وتكنولوجيا الاسترجاع المختلطة على أساس GMM (النموذج الهجين الغوسي). يتيح هذا النهج Vidorag استخراج المعلومات الرئيسية واستنتاجها بشكل أكثر دقة عند معالجة المستندات المرئية التي تحتوي على صور ونص. بالمقارنة مع القيود المفروضة على أنظمة الخرقة التقليدية التي تعتمد فقط على استرجاع النص ، فإن Vidorag يحسن الأداء بشكل كبير من خلال دمج البيانات متعددة الوسائط.
يصف Tongyi Lab بالتفصيل كيف يعمل Vidorag في مستودع الأوراق والمدونة المنشورة. يكمن جوهرها في ضبط عملية البحث والتوليد ديناميكيًا من خلال تعاون عوامل متعددة ، وبالتالي تقليل ظواهر "الوهم" في السيناريوهات المعقدة (أي أن النموذج يولد محتوى غير دقيق أو ملفق) وتحسين موثوقية الإجابات والأهمية السياقية.
يتمتع النظام بدقة 79.4 ٪ على GPT-4O ، وهو رقم لا يوضح أدائه الممتاز فحسب ، بل يقارنه أيضًا بأنظمة Rag التقليدية. على الرغم من أن أنظمة الخرقة التقليدية تعمل بشكل جيد في مهام توليد النصوص ، إلا أنها غالبًا ما تقتصر على قدرة استرجاع وضع واحد عند معالجة المستندات البصرية ، وعادة ما تحوم دقتها على مستوى منخفض. زاد Vidorag من معدل الدقة بأكثر من 10 نقاط مئوية من خلال إدخال التكامل العميق للمعلومات المرئية ومعلومات النص. هذا التقدم له أهمية كبيرة في السيناريوهات التي تتطلب فهم وثائق عالية الدقة ، مثل تحليل المستندات القانونية ، وتفسير التقارير الطبية ومعالجة بيانات المؤسسات.
أشعلت خطوة Alibaba Tongyi Lab إلى Open Source Vidorag أيضًا مناقشات ساخنة على Twitter. يعتقد المستخدمون أن الكشف عن هذا النظام لا يعكس فقط القوة التقنية لأبابا في مجال الذكاء الاصطناعى ، بل يوفر أيضًا موردًا قيما للمطورين والباحثين العالميين. من خلال الأوراق والرموز العامة (تمت مشاركة الروابط ذات الصلة في منشورات Twitter) ، من المتوقع أن يسرع Vidorag البحث وتطبيق تقنية Rag Document وتطوير المزيد من تطوير أنظمة AI متعددة الوسائط.
لقد فتح إصدار ومصدر Vidorag مفتوحًا بلا شك اتجاهات جديدة لتكنولوجيا RAG. مع زيادة الطلب على معالجة المستندات المرئية ، قد يكون ظهور Vidorag هو البداية ، وقد نرى أنظمة مبتكرة أكثر مماثلة في المستقبل.
المشروع: https://github.com/alibaba-nlp/vidorag