Kürzlich hat eine Studie, die gemeinsam vom Bytedance Research Institute und der Tsinghua University durchgeführt wurde, Fragen zur körperlichen Verständnis der aktuellen Modelle der KI -Videogenerierung aufgeworfen. Durch sorgfältig gestaltete Experimente stellte das Forschungsteam fest, dass diese Modelle, wie OpenAIs Sora, obwohl sie visuell beeindruckend sind, die grundlegenden physikalischen Gesetze nicht wirklich verstanden haben, sondern sich auf die Farbe, Größe und Lernen und Priorisierung von Oberflächenmerkmalen wie Geschwindigkeit und Priorität stützten Form. Diese Studie hat das detaillierte Nachdenken der Menschen über die Realität der KI-Simulation ausgelöst und stellt auch KI-Modelle heraus, die sich über ihre physischen Verständnisfunktionen rühmen.
Kürzlich veröffentlichten Forscher des Bytedance Research Institute und der Tsinghua University gemeinsam eine neue Studie, in der darauf hingewiesen wird, dass das aktuelle Modell der AI -Videogenerierung, wie z. . Diese Studie hat eine umfassende Diskussion über die Fähigkeit von AI ausgelöst, die Realität zu simulieren.
Das Forschungsteam testete das KI -Videogenerierungsmodell und richtete drei verschiedene Szenarien ein, nämlich Vorhersage im bekannten Modus, Vorhersage im unbekannten Modus und neue Kombinationen vertrauter Elemente. Ihr Ziel ist es zu sehen, ob diese Modelle tatsächlich die Gesetze der Physik lernen oder ob sie sich ausschließlich auf Oberflächenmerkmale im Training verlassen.
Durch Tests stellten die Forscher fest, dass diese KI -Modelle nicht allgemein anwendbare Regeln gelernt haben. Stattdessen verlassen sie sich hauptsächlich auf Oberflächenmerkmale wie Farbe, Größe, Geschwindigkeit und Form beim Erzeugen von Videos und folgen einer strengen Reihenfolge der Priorität: Farbe wird bevorzugt, gefolgt von Größe, Geschwindigkeit und Form.
In vertrauten Szenarien treten diese Modelle fast perfekt ab, aber sobald sie unbekannte Situationen begegnen, erscheinen sie machtlos. Ein Test in der Studie zeigt die Einschränkungen von KI -Modellen beim Umgang mit Objektbewegungen. Wenn das Modell beispielsweise schnell bewegende Kugeln zum Hin- und Herbewegungen bei der Bereitstellung von Kugeln während des Tests verwendet, zeigt das Modell tatsächlich, dass die Kugel die Richtung plötzlich nach einigen Frames ändert. Dieses Phänomen spiegelt sich auch eindeutig in den verwandten Videos wider.
Die Forscher weisen darauf hin, dass die einfache Erweiterung der Größe des Modells oder die Erhöhung der Trainingsdaten das Problem nicht löst. Obwohl größere Modelle unter bekannten Mustern und Kombinationen besser abschneiden, verstehen sie immer noch die grundlegenden physischen Gesetze oder verarbeiten Szenarien, die über den Rahmen des Trainings hinausgehen. Die Forschungs-Co-Autorin Kang Bingyi erwähnte: "Wenn die Datenabdeckung in einem bestimmten Szenario gut genug ist, kann es möglich sein, ein übermäßiges Weltmodell zu bilden." Das Weltmodell sollte in der Lage sein, über Trainingsdaten hinaus zu fördern.
Co-Autor Bingyi Kang zeigte diese Einschränkung auf X und erklärte, dass das Modell beim Training des Modells mit einem sich schnell bewegenden Ball von links nach rechts und rückwärts getestet wurde, und zeigte den Ball nach nur wenigen Rahmen, die Richtung änderte sich plötzlich (Sie können sie in der 1 Minute und 55 Sekunden sehen).
Die Ergebnisse dieser Studie haben das Sora -Programm von OpenAI herausfordern. OpenAI hat gesagt, dass Sora durch kontinuierliche Ausdehnung zu einem wahren Weltmodell entwickelt wird, und behauptet sogar, dass es ein grundlegendes Verständnis der physischen Interaktion und der dreidimensionalen Geometrie hat. Forscher weisen jedoch darauf hin, dass eine einfache Skalenexpansion allein nicht ausreicht, um die modellischen grundlegenden Gesetze zur Videogenerierung zu ermöglichen.
Yann Lecun, Leiter der KI bei Meta, äußerte auch Zweifel daran und glaubte, dass die Praxis der Vorhersage der Welt durch Erzeugung von Pixeln "Zeitverschwendung ist und zum Scheitern verurteilt ist". Trotzdem freuen sich viele Menschen immer noch darauf, Sora Mitte Februar 2024 zu veröffentlichen, was das Potenzial der Videogenerierung demonstriert.
Schlüsselpunkte:
Die Untersuchung ergab, dass das KI -Videogenerierungsmodell wichtige Mängel beim Verständnis der physischen Gesetze aufweist und auf die Oberflächeneigenschaften der Trainingsdaten beruht.
Das Skalieren der Modellgröße löst das Problem nicht, das in unbekannten Szenarien nicht gut abschneidet.
Das Sora-Programm von OpenAI steht vor Herausforderungen, und das Skalieren allein kann kein echtes Weltmodell erreichen.
Kurz gesagt, diese Studie wies auf die Richtung für die Entwicklung der AI -Videogenerierungstechnologie hin, dh der einfachen Ausdehnung des Maßstabs kann das grundlegende Problem des Verständnisses der körperlichen Gesetze durch AI nicht lösen. In Zukunft müssen KI -Modelle physikalische Prinzipien tiefer lernen und verstehen, um wirklich eine genaue Simulation und Vorhersage der realen Welt zu erreichen, anstatt nur in der Phase der Nachahmung von Oberflächenmerkmalen zu bleiben.