Sebuah studi baru -baru ini yang dipimpin oleh Yann Lecun, Kepala Ilmuwan Meta AI, mengungkapkan bagaimana kecerdasan buatan mengembangkan pemahaman fisika dasar dengan menonton video. Studi ini, yang dilakukan oleh para ilmuwan dari Meta Fair, Universitas Paris dan Ehess, menunjukkan bahwa sistem AI dapat memperoleh pengetahuan fisika intuitif melalui pembelajaran yang diawasi tanpa aturan yang telah ditetapkan.

Tim peneliti mengadopsi pendekatan baru yang disebut Video Joint Embedded Prediction Architecture (V-JEPA), yang bekerja lebih dekat dengan metode pemrosesan informasi otak manusia daripada model AI generatif seperti Sora Openai. V-Jepa tidak mengejar generasi prediksi piksel yang sempurna, tetapi berfokus pada membuat prediksi dalam ruang representasi abstrak. Dengan cara ini, sistem AI dapat mempelajari konsep fisik dasar.
Dalam penelitian ini, tim meminjam metode penilaian "pelanggaran ekspektasi" dari psikologi perkembangan, yang awalnya digunakan untuk menguji kemampuan pemahaman fisik bayi. Para peneliti menunjukkan AI dua skenario serupa - satu secara fisik memungkinkan dan yang lain tidak mungkin secara fisik (mis., Bola melewati dinding), dan kemampuan pemahaman fisik AI dapat dievaluasi dengan mengukur responsnya terhadap pelanggaran fisik ini.
V-JEPA diuji pada tiga dataset: intphys (konsep fisik dasar), genggam (interaksi kompleks), dan selingan (lingkungan realistis). Hasilnya menunjukkan bahwa V-JEPA berkinerja sangat baik dalam keteguhan objek, kontinuitas, dan konsistensi bentuk, sementara model bahasa multimodal besar seperti Gemini1.5Pro dan QWEN2-VL-72B melakukan hampir sebanding dengan tebakan acak.
Efisiensi pembelajaran V-JEPA juga menarik. Sistem ini dapat menguasai konsep fisika dasar dengan hanya menonton 128 jam video. Selain itu, bahkan model kecil dengan 115 juta parameter telah menunjukkan hasil yang kuat. Penelitian menunjukkan bahwa V-JEPA mampu mengidentifikasi pola gerak secara efektif dan mengidentifikasi peristiwa yang secara fisik tidak masuk akal dengan akurasi tinggi, meletakkan dasar bagi AI untuk benar-benar memahami masa depan dunia.
Studi ini menantang asumsi mendasar dalam banyak studi AI bahwa sistem membutuhkan "pengetahuan inti" yang telah ditentukan untuk memahami hukum fisika. Temuan V-Jepa menunjukkan bahwa pembelajaran observasional dapat membantu AI mendapatkan pengetahuan di bidang ini, mirip dengan proses yang dengannya bayi, primata dan bahkan burung muda memahami fisika. Penelitian ini sejalan dengan eksplorasi jangka panjang Meta dari arsitektur JEPA, yang bertujuan untuk menciptakan model dunia yang komprehensif yang memungkinkan sistem AI otonom memiliki pemahaman yang lebih dalam tentang lingkungan mereka.
Penelitian menunjukkan bahwa AI mempelajari pengetahuan fisika melalui video tanpa aturan yang telah ditetapkan. V-JEPA mengungguli model bahasa besar dalam memahami fisika dan menunjukkan kemampuan belajar yang lebih kuat. Meta menggerakkan arahan pengembangan AI baru, yang bertujuan untuk menciptakan model pemahaman lingkungan yang lebih komprehensif.