Meta의 AI의 최고 과학자 인 Yann Lecun이 이끄는 최근 연구에 따르면 인공 지능이 비디오를 보면서 기본 물리적 이해를 개발하는 방법을 밝혀 냈습니다. 파리 대학교 (University of Paris)와에 헤스 (Ehess)의 메타 페어 (Meta Fair) 과학자들이 수행 한 연구는 AI 시스템이 사전 설정 규칙없이 자체 감독 학습을 통해 직관적 인 물리 지식을 얻을 수 있음을 보여줍니다.

연구팀은 Video Joint Embedded Prediction Architecture (V-JEPA)라는 새로운 접근 방식을 채택했으며, 이는 OpenAI의 SORA와 같은 생성 AI 모델보다 인간 뇌의 정보 처리 방법과 더 밀접하게 작동합니다. V-Jepa는 완벽한 픽셀 예측의 생성을 추구하지 않지만 추상 표현 공간에서 예측을하는 데 중점을 둡니다. 이러한 방식으로 AI 시스템은 기본적인 물리적 개념을 배울 수 있습니다.
이 연구에서 팀은 발달 심리학에서“기대 위반”평가 방법을 빌 렸으며, 원래 영아의 신체적 이해력을 테스트하는 데 사용되었습니다. 연구원들은 AI가 물리적으로 가능하고 신체적으로 불가능한 다른 두 가지 시나리오 (예 : 공이 벽을 통과 함)와 AI의 신체적 이해 능력은 이러한 신체적 위반에 대한 응답을 측정함으로써 평가 될 수 있습니다.
V-JEPA는 INTPHYS (기본 물리적 개념), 파악 (복잡한 상호 작용) 및 Inflevel (현실적인 환경)의 세 가지 데이터 세트에서 테스트되었습니다. 결과는 V-Jepa가 객체 불변성, 연속성 및 형상 일관성에서 특히 잘 작동하는 반면, Gemini1.5PRO 및 QWEN2-VL-72B와 같은 대규모 멀티 모달 언어 모델은 무작위 추측과 거의 비교할 수 있음을 보여줍니다.
V-Jepa 학습의 효율성도 시선을 사로 잡습니다. 이 시스템은 128 시간의 비디오 만 시청하여 기본 물리 개념을 마스터 할 수 있습니다. 또한 1 억 1 천 5 백만 개의 매개 변수를 가진 소규모 모델조차도 강력한 결과를 보여주었습니다. 연구에 따르면 V-Jepa는 모션 패턴을 효과적으로 식별하고 높은 정확도로 물리적으로 불합리한 사건을 식별 할 수 있으며, AI가 세계의 미래를 진정으로 이해하기위한 기초를 마련했습니다.
이 연구는 많은 AI 연구에서 시스템이 물리 법칙을 이해하기 위해 사전 설정된 "핵심 지식"이 필요하다는 기본적인 가정에 도전합니다. V-Jepa의 연구 결과는 관찰 학습이 영아, 영장류 및 어린 조류가 물리학을 이해하는 과정과 유사 하게이 분야에서 AI 지식을 얻는 데 도움이 될 수 있음을 보여줍니다. 이 연구는 자율적 인 AI 시스템이 환경을 더 깊이 이해할 수 있도록하는 포괄적 인 세계 모델을 만들기 위해 Meta의 장기 JEPA 아키텍처 탐색과 일치합니다.
연구에 따르면 AI는 사전 설정 규칙없이 비디오를 통해 물리 지식을 학습합니다. V-Jepa는 물리학을 이해하는 데 큰 언어 모델을 능가하고 더 강력한 학습 능력을 보여줍니다. Meta는보다 포괄적 인 환경 이해 모델을 만들기 위해 새로운 AI 개발 방향을 주도합니다.