최근 Meta AI 팀은 기계 인텔리전스의 추가 개발을 주도하도록 설계된 획기적인 기술인 The Joint Video Embedded Prediction Architecture (V-JEPA)라는 혁신적인 모델을 출시했습니다. 인간은 시각적 신호를 처리 할 수있는 능력으로 태어나 주변 물체와 모션 패턴을 쉽게 식별 할 수 있습니다. 기계 학습의 중요한 목표는 인간의 감독되지 않은 학습의 기본 원칙을 밝히는 것입니다. 이를 위해 연구원들은 예측 특징의 원리 인 주요 가설을 제안했으며, 이는 연속 감각 입력의 표현이 서로를 예측할 수 있어야한다고 주장했다.
초기 연구 방법은 주로 시간 일관성을 유지하기 위해 느린 기능 분석 및 스펙트럼 기술을 사용하여 표현 붕괴를 방지합니다. 그러나 현대 기술은 대비 학습 및 마스킹 모델링을 결합하여 시간이 지남에 따라 표현이 발전 할 수 있도록합니다. 이러한 방법은 시간 불변에 초점을 맞출뿐만 아니라 예측 네트워크를 훈련하여 다른 시간 단계에서 기능 관계를 매핑하여 성능을 크게 향상시킵니다. 특히 비디오 데이터에서 시공간 마스킹의 적용은 학습의 질을 더욱 향상시킵니다.
Meta의 연구팀은 여러 유명 기관과 공동으로 V-JEPA 모델을 개발했습니다. 이 모델은 기능 예측에 중점을두고 감독되지 않은 비디오 학습에 중점을 둡니다. 전통적인 방법과 달리 V-JEPA는 미리 훈련 된 인코더, 음의 샘플, 재구성 또는 텍스트 감독에 의존하지 않습니다. 교육 과정에서 V-Jepa는 2 백만 개의 공개 비디오를 사용했으며 미세 조정없이 운동 및 외관 작업에서 상당한 성능을 달성했습니다.
V-Jepa의 교육 방법은 비디오 데이터를 통해 객체 중심 학습 모델을 구축하는 것입니다. 먼저, 신경망은 비디오 프레임에서 객체 중심의 표현을 추출하여 모션 및 외관 기능을 캡처합니다. 이러한 표현은 객체의 분리 성을 향상시키기 위해 비교 학습을 통해 더욱 향상됩니다. 다음으로 변압기 기반 아키텍처는 이러한 표현을 처리하여 물체 간의 시간적 상호 작용을 시뮬레이션합니다. 전체 프레임 워크는 대규모 데이터 세트에서 훈련되어 재구성 정확도와 크로스 프레임 일관성을 최적화합니다.
V-JEPA는 픽셀 예측 방법, 특히 동결 평가에서 특히 우수한 성능을 발휘합니다. Imagenet 분류 작업에서 약간 저개발 해졌지만 미세 조정 후 V-Jepa는 교육 샘플이 적은 VIT-L/16 모델을 기반으로 다른 방법을 능가합니다. V-JEPA는 모션 이해력과 비디오 작업에서 훌륭하게 수행하고 교육이 더 효율적이며 낮은 샘플 설정에서 정확도를 유지할 수 있습니다.
이 연구는 감독되지 않은 비디오 학습의 독립적 인 목표로 기능 예측의 효과를 보여줍니다. V-JEPA는 다양한 이미지 및 비디오 작업에서 잘 수행되며 매개 변수 적응없이 이전 비디오 표현 방법을 능가합니다. V-Jepa는 미묘한 모션 세부 사항을 캡처 할 때 상당한 이점을 가지고 있으며 비디오 이해력에서 큰 잠재력을 보여줍니다.
논문 : https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/
블로그 : https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-embedding-predictive-architective/
핵심 사항 :
V-JEPA 모델은 META AI가 시작한 새로운 비디오 학습 모델로 감독되지 않은 기능 예측에 중점을 둡니다.
이 모델은 전통적인 사전 예방 인코더와 텍스트 감독에 의존하여 비디오 데이터에서 직접 학습하지 않습니다.
V-Jepa는 비디오 작업과 낮은 샘플 학습에서 잘 수행되어 효율적인 교육 능력과 강력한 표현 능력을 보여줍니다.