كشفت دراسة حديثة بقيادة يان ليكون ، كبير العلماء في منظمة العفو الدولية ، كيف يطور الذكاء الاصطناعي فهم الفيزياء الأساسية من خلال مشاهدة مقاطع الفيديو. تُظهر الدراسة ، التي أجراها علماء من Meta Fair ، جامعة باريس وإيهيس ، أن أنظمة الذكاء الاصطناعى يمكن أن تكتسب معرفة فيزياء بديهية من خلال التعلم الخاضع للرقابة ذاتيًا دون قواعد مسبق.

اعتمد فريق البحث نهجًا جديدًا يسمى بنية التنبؤ المضمنة بالفيديو (V-JEPA) ، والتي تعمل بشكل أوثق مع طريقة معالجة معلومات الدماغ البشري أكثر من نماذج الذكاء الاصطناعى التوليدي مثل Openai's Sora. لا تتابع V-Jepa توليد تنبؤات بكسل مثالية ، ولكنها تركز على إجراء التنبؤات في مساحة تمثيل مجردة. وبهذه الطريقة ، يمكن أن أنظمة الذكاء الاصطناعى تعلم المفاهيم المادية الأساسية.
في الدراسة ، استعار الفريق طريقة تقييم "انتهاك التوقع" من علم النفس التنموي ، والتي تم استخدامها في الأصل لاختبار قدرات الفهم البدني للرضع. يُظهر الباحثون منظمة العفو الدولية سيناريوهين مماثلان - أحدهما ممكن جسديًا والآخر مستحيل جسديًا (على سبيل المثال ، كرة تمر عبر الجدار) ، ويمكن تقييم قدرة الفهم الجسدي من الذكاء الاصطناعي عن طريق قياس استجابتها لهذه الانتهاكات الجسدية.
تم اختبار V-JEPA على ثلاث مجموعات بيانات: intphys (المفاهيم المادية الأساسية) ، فهم (تفاعلات معقدة) ، و Quintvel (بيئة واقعية). تظهر النتائج أن V-JEPA تؤدي بشكل جيد بشكل خاص في ثبات الكائن والاستمرارية والاتساق على شكل ، في حين أن نماذج اللغة المتعددة الوسائط الكبيرة مثل Gemini1.5Pro و QWEN2-VL-72B تؤدي تقريبًا قابلة للمقارنة مع التخمينات العشوائية تقريبًا.
كفاءة تعلم V-JEPA هي أيضا لافتة للنظر. يمكن للنظام إتقان مفاهيم الفيزياء الأساسية بمجرد مشاهدة 128 ساعة من الفيديو. علاوة على ذلك ، حتى النموذج الصغير الذي يحتوي على 115 مليون معلمة أظهر نتائج قوية. تشير الأبحاث إلى أن V-JEPA قادر على تحديد أنماط الحركة بشكل فعال وتحديد الأحداث غير المعقولة جسديًا بدقة عالية ، ووضع الأساس لوكالة الذكاء الاصطناعى لفهم مستقبل العالم حقًا.
تتحدى هذه الدراسة افتراضًا أساسيًا في العديد من دراسات الذكاء الاصطناعي التي تتطلب أنظمة "المعرفة الأساسية" المسبقة لفهم قوانين الفيزياء. تظهر نتائج V-Jepa أن التعلم القائم على الملاحظة يمكن أن يساعد منظمة العفو الدولية على اكتساب المعرفة في هذا المجال ، على غرار العملية التي يفهم بها الرضع والقرود وحتى الطيور الصغيرة الفيزياء. يتماشى البحث مع استكشاف Meta على المدى الطويل لهندسة JEPA ، بهدف إنشاء نموذج عالمي شامل يمكّن أنظمة الذكاء الاصطناعى المستقلة من فهم أعمق لبيئتها.
تظهر الأبحاث أن الذكاء الاصطناعي يتعلم المعرفة فيزياء من خلال الفيديو دون قواعد مسبق. يتفوق V-Jepa على نماذج لغة كبيرة في فهم الفيزياء وتظهر قدرات تعليمية أقوى. Meta يقود اتجاهات تطوير الذكاء الاصطناعى الجديدة ، بهدف إنشاء نموذج فهم بيئي أكثر شمولاً.