MetaのAIのチーフサイエンティストであるYann Lecunが率いる最近の研究は、人工知能がビデオを視聴することで基本的な物理学の理解をどのように発展させるかを明らかにしました。この研究は、パリとEhess大学のMeta Fairの科学者によって行われ、AIシステムがプリセットルールなしで自己教師の学習を通じて直感的な物理学知識を得ることができることを示しています。

研究チームは、Video Joint Embedded Prediction Architecture(V-Jepa)と呼ばれる新しいアプローチを採用しました。これは、OpenaiのSORAなどの生成AIモデルよりも、人間の脳の情報処理方法により密接に機能します。 V-JEPAは、完全なピクセル予測の生成を追求するものではありませんが、抽象表現空間で予測を行うことに焦点を当てています。このようにして、AIシステムは基本的な物理的概念を学ぶことができます。
この研究では、チームは発達心理学から「期待違反」評価方法を借りました。これは、もともと乳児の身体的理解能力をテストするために使用されていました。研究者は、AIが2つの同様のシナリオを示しています。1つは身体的に可能であり、他の身体的に不可能(たとえば、ボールが壁を通過する)、およびAIの身体的理解能力をこれらの物理的違反に対する反応を測定することで評価できます。
V-JEPAは、3つのデータセットでテストされました:intphys(基本的な物理的概念)、把握(複雑な相互作用)、およびInflevel(現実的な環境)。結果は、V-JEPAがオブジェクトの恒常性、連続性、および形状の一貫性で特にうまく機能し、Gemini1.5ProやQWEN2-VL-72Bなどの大規模なマルチモーダル言語モデルがランダム推測にほぼ匹敵することを示しています。
V-JEPA学習の効率も目を引くことです。このシステムは、128時間のビデオを見るだけで、基本的な物理学の概念を習得できます。さらに、1億1500万のパラメーターを持つ小さなモデルでさえ、強い結果を示しています。調査によると、V-JEPAはモーションパターンを効果的に特定し、高精度で物理的に不合理なイベントを特定し、AIが世界の未来を真に理解するための基礎を築くことができることが示されています。
この研究は、システムの基本的な仮定に挑戦し、システムは物理学の法則を理解するために、システムがプリセットされた「コア知識」を必要とするということです。 V-JEPAの調査結果は、観察学習がAIがこの分野で知識を得るのに役立つことを示しています。この研究は、メタのJEPAアーキテクチャの長期的な調査と一致しており、自律的なAIシステムが環境をより深く理解できるようにする包括的な世界モデルを作成することを目指しています。
調査によると、AIはプリセットルールなしでビデオを通じて物理学知識を学習します。 V-JEPAは、物理学を理解する上で大きな言語モデルを上回り、より強い学習能力を示します。 Metaは、より包括的な環境理解モデルの作成を目指して、新しいAI開発の方向性を促進します。