Récemment, une étude menée conjointement par Bytedance Research Institute et Tsinghua University a soulevé des questions sur la capacité de compréhension physique des modèles de génération de vidéos IA actuels. Grâce à des expériences soigneusement conçues, l'équipe de recherche a constaté que ces modèles, tels que Sora d'Openai, bien que visuellement impressionnants, ne comprenaient pas vraiment les lois physiques de base, mais s'appuyaient plutôt sur la couleur, la taille et l'apprentissage et la hiérarchisation des caractéristiques de surface telles que la vitesse et forme. Cette étude a déclenché une réflexion approfondie des gens sur la réalité de la simulation d'IA, et remet également en question les modèles d'IA qui se vantent de leurs capacités de compréhension physique.
Récemment, des chercheurs de Bytedance Research Institute et de l'Université Tsinghua ont conduit conjointement une nouvelle étude, soulignant que le modèle actuel de génération de vidéos AI, tel que Sora d'Openai, peut créer des effets visuels incroyables, mais comprendre la physique de base. . Cette étude a déclenché une discussion approfondie de la capacité de l'IA à simuler la réalité.
L'équipe de recherche a testé le modèle de génération de vidéos AI et mis en place trois scénarios différents, à savoir la prédiction en mode connu, la prédiction en mode inconnu et de nouvelles combinaisons d'éléments familiers. Leur objectif est de voir si ces modèles apprennent réellement les lois de la physique, ou s'ils comptent uniquement sur les caractéristiques de surface de l'entraînement.
Grâce aux tests, les chercheurs ont constaté que ces modèles d'IA n'avaient pas appris les règles universellement applicables. Au lieu de cela, ils comptent principalement sur des caractéristiques de surface telles que la couleur, la taille, la vitesse et la forme lors de la génération de vidéos, et suivent un ordre de priorité strict: la couleur est préférée, suivie de la taille, de la vitesse et de la forme.
Dans des scénarios familiers, ces modèles fonctionnent presque parfaitement, mais une fois qu'ils rencontrent des situations inconnues, elles semblent impuissantes. Un test dans l'étude démontre les limites des modèles d'IA lorsqu'ils traitent des mouvements d'objets. Par exemple, lorsque le modèle s'entraîne en utilisant des sphères en mouvement rapide pour se déplacer d'avant en arrière, tout en leur fournissant des sphères lentes pendant les tests, le modèle montre en fait que la sphère change soudainement de direction après quelques images. Ce phénomène se reflète également clairement dans les vidéos connexes.
Les chercheurs soulignent que l'élargissement de la taille du modèle ou l'augmentation des données de formation ne résout pas le problème. Bien que les modèles plus grands fonctionnent mieux sous des schémas et des combinaisons familières, ils ne comprennent toujours pas les lois physiques de base ou gèrent les scénarios au-delà de la portée de la formation. Le co-auteur de la recherche, Kang Bingyi, a mentionné: "Si la couverture des données est suffisante dans un scénario spécifique, il peut être possible de former un modèle mondial surpeuplé." Le modèle mondial devrait être en mesure de promouvoir au-delà des données de formation.
Le co-auteur Bingyi Kang a démontré cette limitation de X, expliquant que lorsqu'ils ont entraîné le modèle avec une balle rapide de gauche à droite et en arrière, puis testé avec une balle lente, le modèle a montré la balle après seulement quelques-uns Les cadres, la direction ont soudainement changé (vous pouvez le voir dans la vidéo de 1 minute et 55 secondes).
Les résultats de cette étude remettent en question le programme SORA d'Openai. OpenAI a déclaré que Sora devrait se transformer en un véritable modèle mondial grâce à une expansion continue, et affirme même qu'il a une compréhension de base de l'interaction physique et de la géométrie tridimensionnelle. Mais les chercheurs soulignent que l'expansion à l'échelle simple n'est pas suffisante pour permettre aux modèles de génération de vidéos de découvrir des lois physiques de base.
Yann LeCun, chef de l'IA à Meta, a également exprimé des doutes à ce sujet, croyant que la pratique de prédire le monde en générant des pixels est "une perte de temps et condamnée à échouer". Malgré cela, de nombreuses personnes attendent toujours avec impatience la sortie d'Openai de Sora comme prévu à la mi-février 2024, démontrant son potentiel de génération de vidéos.
Points clés:
La recherche a révélé que le modèle de génération de vidéos IA a des défauts majeurs dans la compréhension des lois physiques et repose sur les caractéristiques de surface des données d'entraînement.
La mise à l'échelle de la taille du modèle ne résout pas le problème, qui ne fonctionne pas bien dans des scénarios inconnus.
Le programme SORA d'OpenAI fait face à des défis, et l'échelle à elle seule ne peut pas atteindre un véritable modèle mondial.
En bref, cette étude a souligné la direction du développement de la technologie de génération de vidéos d'IA, c'est-à-dire que l'expansion à l'échelle simple ne peut pas résoudre le problème fondamental de la compréhension de l'IA des lois physiques. À l'avenir, les modèles d'IA doivent apprendre et comprendre les principes physiques plus profondément afin d'obtenir vraiment une simulation et une prédiction précises du monde réel, plutôt que de rester au stade de l'imitation des caractéristiques de surface.