Un estudio reciente dirigido por Yann Lecun, jefe científico de la IA de Meta, reveló cómo la inteligencia artificial desarrolla la comprensión de la física básica al ver videos. El estudio, realizado por científicos de Meta Fair, la Universidad de París y Ehess, muestra que los sistemas de IA pueden obtener conocimiento de física intuitiva a través del aprendizaje auto-supervisado sin reglas preestablecidas.

El equipo de investigación adoptó un nuevo enfoque llamado video arquitectura de predicción integrada de video (V-JEPA), que funciona más estrechamente con el método de procesamiento de información del cerebro humano que los modelos de IA generativos como SORA de OpenAI. V-JepA no persigue la generación de predicciones de píxeles perfectas, pero se centra en hacer predicciones en un espacio de representación abstracta. De esta manera, los sistemas de IA pueden aprender conceptos físicos básicos.
En el estudio, el equipo tomó prestado un método de evaluación de "violación de expectativas" de la psicología del desarrollo, que originalmente se utilizó para probar las habilidades de comprensión física de los bebés. Los investigadores muestran a la IA dos escenarios similares: uno físicamente posible y el otro físicamente imposible (por ejemplo, una pelota pasa a través de una pared), y la capacidad de comprensión física de la IA puede evaluarse midiendo su respuesta a estas violaciones físicas.
V-JEPA se probó en tres conjuntos de datos: Intphys (conceptos físicos básicos), GRASP (interacciones complejas) e inflevel (entorno realista). Los resultados muestran que V-JEPA funciona particularmente bien en la constancia de objetos, la continuidad y la consistencia de la forma, mientras que los grandes modelos de lenguaje multimodal como Gemini1.5Pro y QWEN2-VL-72B funcionan casi comparables a las conjeturas aleatorias.
La eficiencia del aprendizaje V-JEPA también es llamativa. El sistema puede dominar los conceptos básicos de física simplemente viendo 128 horas de video. Además, incluso el modelo pequeño con 115 millones de parámetros ha mostrado fuertes resultados. La investigación muestra que V-JEPA puede identificar de manera efectiva los patrones de movimiento e identificar eventos físicamente irrazonables con alta precisión, estableciendo las bases para que la IA realmente comprenda el futuro del mundo.
Este estudio desafía una suposición fundamental en muchos estudios de IA que los sistemas requieren un "conocimiento central" preestablecido para comprender las leyes de la física. Los hallazgos de V-Jepa muestran que el aprendizaje observacional puede ayudar a la IA a obtener conocimiento en esta área, similar al proceso por el cual los bebés, los primates e incluso las aves jóvenes entienden la física. La investigación está en línea con la exploración a largo plazo de Meta de la arquitectura JEPA, con el objetivo de crear un modelo mundial integral que permita a los sistemas de IA autónomos tener una comprensión más profunda de su entorno.
La investigación muestra que la IA aprende el conocimiento físico a través del video sin reglas preestablecidas. V-JEPA supera a los grandes modelos de idiomas en la comprensión de la física y muestra habilidades de aprendizaje más fuertes. Meta conduce nuevas instrucciones de desarrollo de IA, con el objetivo de crear un modelo de comprensión ambiental más integral.