Eine kürzlich unter der Leitung von Yann Lecun, Chefwissenschaftlerin der KI von Meta, unter der Leitung der KI in der Leitung künstlicher Intelligenz entwickelt durch das Ansehen von Videos ein grundlegendes physikalisches Verständnis. Die Studie, die Wissenschaftler von Meta Fair, der Universität von Paris und Ehess durchgeführt haben, zeigt, dass KI-Systeme durch selbstüberprüftes Lernen ohne voreingestellte Regeln intuitives physikalisches Wissen erlangen können.

Das Forschungsteam verfolgte einen neuen Ansatz namens Video Joint Embedded Prediction Architecture (V-JEPA), der enger mit der Informationsverarbeitungsmethode des menschlichen Gehirns als generative KI-Modelle wie OpenAIs Sora arbeitet. V-JEPA verfolgt nicht die Erzeugung perfekter Pixelvorhersagen, sondern konzentriert sich darauf, Vorhersagen in einem abstrakten Repräsentationsraum zu treffen. Auf diese Weise können KI -Systeme grundlegende physikalische Konzepte lernen.
In der Studie lieh das Team eine Bewertungsmethode „Erwartungsverletzung“ aus der Entwicklungspsychologie, die ursprünglich zum Testen der physikalischen Verständnisfähigkeiten von Säuglingen verwendet wurde. Die Forscher zeigen zwei ähnliche Szenarien - eine physisch mögliche und die andere physisch unmöglich (z. B. ein Ball durch eine Wand fließt), und die Fähigkeit zur körperlichen Verständnis der KI kann durch Messen seiner Reaktion auf diese physikalischen Verstöße bewertet werden.
V-JEPA wurde an drei Datensätzen getestet: INTPHYS (grundlegende physikalische Konzepte), Griff (komplexe Interaktionen) und Inflevel (realistische Umgebung). Die Ergebnisse zeigen, dass V-JEPA in Objektkonstanz, Kontinuität und Formkonsistenz besonders gut abschneidet, während große multimodale Sprachmodelle wie Gemini1.5Pro und Qwen2-VL-72B nahezu vergleichbar mit zufälligen Vermutungen ausführen.
Die Effizienz des V-JEPA-Lernens ist ebenfalls auffällig. Das System kann grundlegende Physikkonzepte beherrschen, indem sie nur 128 Stunden Video ansehen. Darüber hinaus hat selbst das kleine Modell mit 115 Millionen Parametern starke Ergebnisse gezeigt. Untersuchungen zeigen, dass V-JEPA in der Lage ist, Bewegungsmuster effektiv zu identifizieren und physikalisch unangemessene Ereignisse mit hoher Genauigkeit zu identifizieren und die Grundlage für KI zu legen, um die Zukunft der Welt wirklich zu verstehen.
Diese Studie stellt eine grundlegende Annahme in vielen AI -Studien in Frage, dass Systeme voreingestellter „Kernwissen“ erforderlich sind, um die Gesetze der Physik zu verstehen. Die Ergebnisse von V-JEPA zeigen, dass das Beobachtungslernen KI in diesem Bereich dazu beitragen kann, Kenntnisse zu erlangen, ähnlich dem Prozess, durch den Säuglinge, Primaten und sogar junge Vögel die Physik verstehen. Die Forschung steht im Einklang mit der langfristigen Erforschung der JEPA-Architektur von Meta, um ein umfassendes Weltmodell zu schaffen, das es autonomen KI-Systemen ermöglicht, ein tieferes Verständnis für ihre Umgebung zu haben.
Untersuchungen zeigen, dass AI Physikwissen durch Video ohne voreingestellte Regeln lernt. V-JEPA übertrifft große Sprachmodelle beim Verständnis der Physik und zeigt stärkere Lernfähigkeiten. Meta treibt neue KI -Entwicklungsrichtungen an und zielt darauf ab, ein umfassenderes Modell für das Umweltverständnis zu schaffen.