هناك ستة إصدارات من نموذج اللغة الكبرى متعددة الوسائط من Alibaba International Open Series OVIS2 - مقالات منظمة العفو الدولية

الكاتب：Eve Cole وقت التحديث：2025-03-25 20:00:04

في 21 فبراير 2025 ، أعلن فريق التدويل في Alibaba رسميًا عن المصدر المفتوح لأحدث سلسلة لغوية كبيرة الوسائط OVIS2. تمثل هذه الخطوة الرئيسية اختراق Alibaba الإضافي في مجال الذكاء الاصطناعي ، كما توفر للمطورين العالميين أدوات تقنية قوية لتعزيز تطوير وتطوير النماذج الكبيرة متعددة الوسائط.

OVIS2 هو أحدث إصدار من نموذج سلسلة OVIS لفريق Alibaba الدولي. إنه لا يحسن فقط كثافة القدرة على النماذج الصغيرة ، ولكن أيضًا يعزز بشكل كبير من قدرات التفكير في سلسلة التفكير (COT) من خلال تعليمات التفضيل وتعلم التفضيل. بالإضافة إلى ذلك ، أضافت OVIS2 وظائف معالجة الفيديو والفيلم متعدد الصور ، وقد أحرزت تقدمًا كبيرًا في القدرات متعددة اللغات وقدرات التعرف الضوئي على الحروف في السيناريوهات المعقدة ، مما يزيد من تحسين قدرات التطبيق والتعميم للنموذج.

تتضمن سلسلة OVIS2 مفتوحة المصدر هذه المرة ستة إصدارات: 1B ، 2B ، 4B ، 8B ، 16B و 34B ، كل إصدار يصل إلى نفس حجم SOTA (أحدث ما يتعلق بالفن). من بينها ، كان أداء OVIS2-34B جيدًا بشكل خاص على قائمة التقييم الموثوقة OpenCompass. في قائمة القدرة العامة متعددة الوسائط ، يحتل OVIS2-34B المرتبة الثانية في جميع النماذج المفتوحة المصدر ، متجاوزًا العديد من النماذج الرائدة في المصدر المفتوح 70B مع أقل من نصف حجم المعلمة. في قائمة التفكير الرياضي متعدد الوسائط ، تصنف OVIS2-34B أولاً ، وتظهر إصدارات الحجم الأخرى مهارات التفكير الممتازة. لا تتحقق هذه الإنجازات فقط من فعالية بنية OVIS ، ولكنها تُظهر أيضًا الإمكانات الضخمة لمجتمع المصدر المفتوح في تعزيز تطوير نماذج كبيرة متعددة الوسائط.

微信截图_20250221172215.png

تصميم العمارة من OVIS2 يحل بذكاء قيود الاختلافات في التضمين الاستراتيجيات بين الوسائط. وهو يتألف من ثلاثة مكونات أساسية: الرمز البصري ، جدول التضمين البصري و LLM (نموذج لغة كبير). يقسم المميز المرئي صورة الإدخال إلى كتل صور متعددة ، ويستخدم المحول المرئي لاستخراج الميزات ، ويطابق الميزات مع "الكلمات المرئية" من خلال طبقة الرأس المرئية لإنشاء رمز بصري احتمالي. يقوم جدول التضمين البصري بتخزين متجهات التضمين المقابلة لكل كلمة مرئية ، في حين أن LLM يربط ناقل التضمين البصري وناقل تضمين النص للمعالجة ، وأخيراً ينشئ إخراج النص لإكمال المهمة المتعددة الوسائط.

فيما يتعلق باستراتيجيات التدريب ، تعتمد OVIS2 طريقة تدريب من أربع مراحل لتحفيز قدرتها على فهمها متعدد الوسائط بالكامل. تتجمد المرحلة الأولى من معظم معلمات LLM و VIT (المحول البصري) ، مع التركيز على وحدات الرؤية التدريبية ، وتعلم الميزات المرئية لتضمين التحولات. تعمل المرحلة الثانية على تحسين قدرات استخراج الميزات للوحدة المرئية وتعزز فهم الصور عالي الدقة ، وقدرات متعددة اللغات و OCR. تقوم المرحلة الثالثة بمحاذاة تنسيق الحوار للتضمين البصري مع LLM من خلال بيانات التسمية التوضيحية المرئية في شكل حوار. المرحلة الرابعة هي تنفيذ التدريب على التعليمات متعددة الوسائط وتعلم التفضيل لزيادة تحسين قدرة النموذج على اتباع تعليمات المستخدم وجودة الإخراج تحت أوضاع متعددة.

لتحسين إمكانيات فهم الفيديو ، طورت OVIS2 خوارزمية مبتكرة لاختيار الإطار الرئيسي. تحدد الخوارزمية إطارات الفيديو الأكثر فائدة استنادًا إلى الارتباط بين الإطارات والنص ، والتنوع المركب بين الإطارات وتسلسل الإطارات. من خلال حسابات التشابه الشرطية عالية الأبعاد ، وعملية النقطة المحددة (DPP) ، وعملية صنع القرار Markov (MDP) ، يمكن للخوارزمية تحديد إطارات المفاتيح بكفاءة في سياق بصري محدود ، وبالتالي تحسين أداء فهم الفيديو بشكل كبير.

كان نموذج Series2 Series أداءً جيدًا بشكل خاص على قائمة التقييم المتعددة الوسائط OpenCompass. حققت نماذج من أحجام مختلفة نتائج SOTA على معايير متعددة. على سبيل المثال ، تصنف OVIS2-34B في المرتبة الثانية والأول في قائمة القدرة العامة متعددة الوسائط والتفكير الرياضي ، على التوالي ، والتي تظهر أدائها القوي. بالإضافة إلى ذلك ، حققت OVIS2 أيضًا نتائج قيادة في قائمة فهم الفيديو ، مما يثبت المزيد من مزاياه في المهام متعددة الوسائط.

قال فريق التدويل في Alibaba إن المصدر المفتوح هو قوة رئيسية في تعزيز تقدم تقنية الذكاء الاصطناعي. من خلال مشاركة نتائج بحث OVIS2 علنًا ، يتطلع الفريق إلى استكشاف متطورة النماذج الكبيرة متعددة الوسائط مع المطورين العالميين وإلهام تطبيقات أكثر إبداعًا. حاليًا ، تم فتح رمز OVIS2 من مصادر GitHub ، ويمكن الحصول على النموذج على منصات Hugging Face و ModelScope ، ويتم توفير العروض التوضيحية عبر الإنترنت لتجربة المستخدم. كما تم نشر أوراق البحث ذات الصلة على Arxiv للرجوع إليها المطورين والباحثين.

الكود: https://github.com/aidc-ai/ovis

نموذج (Huggingface): https://huggingface.co/aidc-ai/ovis2-34b

النماذج: https://modelscope.cn/collections/ovis2-1e2840cb4f7d45

العرض التوضيحي: https://huggingface.co/spaces/aidc-ai/ovis2-16b

Arxiv: https: //arxiv.org/abs/2405.20797