أطلقت Apple والمعهد الفيدرالي السويسري (EPFL) بشكل مشترك نموذج رؤية متعدد الوسائط مفتوح المصدر يسمى 4M-21. بفضل تنوعه ومرونته الممتازة ، أصبح طراز 4M-21 نجمًا جديدًا في مجال التعلم متعدد الوسائط. على الرغم من أن مقياس المعلمات الخاص به لا يزيد عن 3 مليارات ، أصغر بكثير من بعض النماذج الكبيرة السائدة ، إلا أنه يمكن أن يظهر التميز في العشرات من المهام مثل تصنيف الصور ، واكتشاف الكائنات ، والتجزئة الدلالية ، وتجزئة المثيل ، وتقدير العمق ، والتقدير الطبيعي للسطح ، وما إلى ذلك.
يكمن الابتكار الأساسي لنموذج 4M-21 في تقنية تحويل "الرموز المميزة المنفصلة". يمكن لهذه التكنولوجيا تحويل البيانات بشكل موحد من أوضاع مختلفة ، مثل الصور ، وخرائط ميزات الشبكة العصبية ، والمتجهات ، والبيانات المنظمة ، والنص ، إلى تسلسلات الرموز التي يمكن فهمها بواسطة النموذج. هذا التحول لا يبسط عملية التدريب للنموذج فحسب ، بل يوفر أيضًا أساسًا متينًا للانصهار ومعالجة البيانات متعددة الوسائط. من خلال هذه التقنية ، يمكن لـ 4M-21 معالجة أنواع البيانات المتعددة بكفاءة ، وبالتالي إظهار قدرات قوية في التعلم متعدد الوسائط.

خلال عملية التدريب ، اعتمدت 4M-21 طريقة نمذجة القناع. تفرض هذه الطريقة النموذج على تعلم الهيكل الإحصائي والعلاقة المحتملة لبيانات الإدخال عن طريق قطع أجزاء عشوائية من الرموز في تسلسل الإدخال والتنبؤ بالأجزاء المغطاة بناءً على الرموز المتبقية. لا يؤدي نمذجة القناع إلى تحسين قدرة التعميم للنموذج فحسب ، بل تعمل أيضًا على تحسين دقتها في مهمة التوليد. يتيح تطبيق هذه الطريقة 4M-21 التقاط القواسم المشتركة والتفاعل بين أوضاع مختلفة في التعلم متعدد الوسائط.
أجرى الباحثون تقييمات واسعة من 4M-21 ، تغطي مهام متعددة مثل تصنيف الصور ، الكشف عن الكائنات ، تجزئة الدلالي ، تجزئة الحالة ، تقدير العمق ، التقدير الطبيعي للسطح ، وتقدير تشكل الإنسان ثلاثي الأبعاد. تُظهر نتائج التقييم أن أداء 4M-21 في هذه المهام مماثلة للنماذج الحديثة الحالية ، وحتى يتجاوز التقنيات الموجودة في بعض المهام. هذا يوضح بالكامل القدرات المتميزة من 4M-21 في المعالجة متعددة الوسائط.
النقاط الرئيسية:
- فتحت شركة Apple والمعهد الفيدرالي لتكنولوجيا Lausanne ، سويسرا ، نموذج 4M-21 ، والذي أصبح إنجازًا مهمًا في مجال التعلم متعدد الوسائط مع تنوعه الواسع والمرونة.
- يمكن أن يؤدي 4M-21 بشكل جيد في العشرات من المهام مثل تصنيف الصور ، الكشف عن الكائنات ، تجزئة الدلالات ، تجزئة المثيل ، تقدير العمق ، التقدير الطبيعي للسطح ، إلخ.
- التكنولوجيا الأساسية لـ 4M-21 هي تحويل "الرموز المنفصلة" ، والتي يمكن أن تحول البيانات من طرائق متعددة إلى تسلسل الرموز المميزة التي تكون مفهومة.