في الآونة الأخيرة ، أطلق فريق Meta AI نموذجًا مبتكرًا يسمى بنية التنبؤ المدمجة بالفيديو المشترك (V-JEPA) ، وهي تقنية اختراق تهدف إلى زيادة تطوير ذكاء الآلة. يولد البشر مع القدرة على معالجة الإشارات البصرية ويمكنهم بسهولة تحديد الكائنات المحيطة وأنماط الحركة. الهدف المهم للتعلم الآلي هو الكشف عن المبادئ الأساسية للتعلم غير الخاضع للإشراف لدى البشر. تحقيقًا لهذه الغاية ، اقترح الباحثون فرضية رئيسية - مبدأ السمات التنبؤية ، التي تقول إن تمثيلات المدخلات الحسية المستمرة يجب أن تكون قادرة على التنبؤ ببعضها البعض.
تستخدم طرق البحث المبكرة بشكل أساسي تحليل الميزات البطيئة والتقنيات الطيفية للحفاظ على تناسق الوقت ، وبالتالي منع انهيار التمثيل. ومع ذلك ، فإن التكنولوجيا الحديثة تجمع بين النمذجة على التباين والاختناق لضمان أن تتطور التمثيلات مع مرور الوقت. لا تركز هذه الطرق فقط على ثبات الوقت ، ولكن أيضًا خريطة العلاقات في خطوات زمنية مختلفة عن طريق تدريب شبكات التنبؤ ، وبالتالي تحسين الأداء بشكل كبير. لا سيما في بيانات الفيديو ، فإن تطبيق تقنيع الزمان يعمل على تحسين جودة تمثيلات التعلم.
طور فريق أبحاث Meta نموذج V-JEPA بالتعاون مع العديد من المؤسسات المعروفة. يركز هذا النموذج على التنبؤ بالميزات ويركز على تعلم الفيديو غير الخاضع للإشراف. على عكس الطرق التقليدية ، لا تعتمد V-JEPA على المشفرات المدربة مسبقًا أو العينات السلبية أو عمليات إعادة البناء أو الإشراف على النص. خلال عملية التدريب ، استخدمت V-JEPA مليوني مقطع فيديو عام وحقق أداءً كبيرًا في المهام الرياضية والمظهر دون ضبط.
تتمثل طريقة التدريب في V-JEPA في إنشاء نموذج تعليمي يركز على الكائن من خلال بيانات الفيديو. أولاً ، تستخرج الشبكة العصبية تمثيل مركز الكائن من إطار الفيديو ، ويلتقط ميزات الحركة والظهور. يتم تعزيز هذه التمثيلات من خلال التعلم المقارن لتحسين فصل الكائنات. بعد ذلك ، تقوم الهندسة المعمارية القائمة على المحولات بمعالجة هذه التمثيل لمحاكاة التفاعلات الزمنية بين الكائنات. يتم تدريب الإطار بأكمله على مجموعات بيانات واسعة النطاق لتحسين دقة إعادة الإعمار واتساق الإطار المتقاطع.
يؤدي V-JEPA بشكل خاص مقارنةً بطرق التنبؤ البكسل ، وخاصة في تقييم التجميد. على الرغم من أنه متخلف قليلاً في مهام تصنيف ImageNet ، بعد ضبطه ، يتجاوز V-JEPA طرقًا أخرى تعتمد على نماذج VIT-L/16 مع عدد أقل من عينات التدريب. تؤدي V-Jepa بشكل ممتاز في مهام الفهم والفيديو أكثر فاعلية في التدريب ، ولا يزال قادرًا على الحفاظ على الدقة في إعدادات العينة المنخفضة.
توضح هذه الدراسة فعالية التنبؤ بالميزات كهدف مستقل لتعلم الفيديو غير الخاضع للإشراف. يؤدي V-Jepa جيدًا في مختلف مهام الصور والفيديو ويتجاوز طرق تمثيل الفيديو السابقة دون تكيف المعلمة. تتمتع V-Jepa بمزايا مهمة في التقاط تفاصيل الحركة الدقيقة ، مما يدل على إمكاناته الهائلة في فهم الفيديو.
الورق: https://ai.meta.com/research/publications/revisititing-feature-prediction-for--learning-visual-representations-from-video/
المدونة: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-moint-embedding-predictive-architecture/
النقاط الرئيسية:
نموذج V-JEPA هو نموذج جديد لتعلم الفيديو الذي أطلقه Meta AI ، مع التركيز على التنبؤ بالميزات غير الخاضعة للإشراف.
لا يعتمد النموذج على المشفرات التقليدية المسبقة والإشراف على النص للتعلم مباشرة من بيانات الفيديو.
كان أداء V-Jepa جيدًا في مهام الفيديو وتعلم العينة المنخفضة ، مما يدل على قدرتها على التدريب الفعالة وقدرة التمثيل القوي.