Um estudo recente liderado por Yann Lecun, cientista -chefe da IA de Meta, revelou como a inteligência artificial desenvolve um entendimento básico da física assistindo a vídeos. O estudo, realizado por cientistas da Meta Fair, a Universidade de Paris e a EHESS, mostra que os sistemas de IA podem obter conhecimento da física intuitiva por meio de aprendizado auto-supervisionado sem regras predefinidas.

A equipe de pesquisa adotou uma nova abordagem chamada Arquitetura de Previsão Incorporada em Vídeo Incorporada (V-JEPA), que funciona mais de perto com o método de processamento de informações do cérebro humano do que os modelos generativos de IA, como o SORA do Openai. O V-JEPA não persegue a geração de previsões perfeitas de pixels, mas se concentra em fazer previsões em um espaço de representação abstrato. Dessa forma, os sistemas de IA podem aprender conceitos físicos básicos.
No estudo, a equipe emprestou um método de avaliação de "violação de expectativa" da psicologia do desenvolvimento, que foi originalmente usada para testar as habilidades de compreensão física dos bebês. Os pesquisadores mostram a IA dois cenários semelhantes - um fisicamente possível e o outro fisicamente impossível (por exemplo, uma bola passa por uma parede), e a capacidade de compreensão física da IA pode ser avaliada medindo sua resposta a essas violações físicas.
O V-JEPA foi testado em três conjuntos de dados: intphys (conceitos físicos básicos), GRASP (interações complexas) e nível interno (ambiente realista). Os resultados mostram que o V-JEPA tem um desempenho particularmente bom na constância de objetos, continuidade e consistência da forma, enquanto grandes modelos de linguagem multimodal, como Gemini1.5Pro e QWEN2-VL-72B, executam quase comparáveis a suposições aleatórias.
A eficiência do aprendizado de V-Jepa também é atraente. O sistema pode dominar os conceitos básicos de física, apenas assistindo a 128 horas de vídeo. Além disso, mesmo o pequeno modelo com 115 milhões de parâmetros mostrou resultados fortes. Pesquisas mostram que o V-JEPA é capaz de identificar efetivamente padrões de movimento e identificar eventos fisicamente irracionais com alta precisão, estabelecendo a base para a IA entender verdadeiramente o futuro do mundo.
Este estudo desafia uma suposição fundamental em muitos estudos de IA de que os sistemas exigem “conhecimento central” predefinido para entender as leis da física. As descobertas de V-Jepa mostram que o aprendizado observacional pode ajudar a IA a adquirir conhecimento nessa área, semelhante ao processo pelo qual os bebês, primatas e até jovens pássaros entendem a física. A pesquisa está de acordo com a exploração de longo prazo da arquitetura JEPA da Meta, com o objetivo de criar um modelo mundial abrangente que permita que os sistemas de IA autônomos tenham uma compreensão mais profunda de seu ambiente.
Pesquisas mostram que a IA aprende o conhecimento da física através do vídeo sem regras predefinidas. O V-JEPA supera grandes modelos de idiomas na compreensão da física e mostra habilidades de aprendizagem mais fortes. A Meta direciona novas direções de desenvolvimento de IA, com o objetivo de criar um modelo de entendimento ambiental mais abrangente.