MLLM (Multimodal Lange Language Model)의 빠른 개발로 초대형 비디오의 효율적인 처리는 현재 연구에서 인기있는 주제가되었습니다. 기존 모델은 종종 컨텍스트 길이와 계산 비용으로 제한되므로 시간별 비디오를 효과적으로 이해하기가 어렵습니다. 이 도전에 따라 Zhiyuan Research Institute와 여러 대학은 효율적인 시간 수준의 비디오 이해를 위해 특별히 설계된 매우 긴 시각적 언어 모델 인 Video-XL을 시작했습니다.
현재 MLLM (Multimodal Lange Language Model)은 비디오 이해력 분야에서 상당한 진전을 보였지만 초대형 비디오를 처리하는 것은 여전히 어려운 일입니다. 이는 MLLM이 종종 최대 컨텍스트 길이를 초과하는 수천 개의 시각적 마커를 처리하고 마크 집계로 인한 정보 감쇠의 영향을 받기 때문에 종종 고생하기 때문입니다. 동시에 많은 비디오 태그도 높은 컴퓨팅 비용을 가져옵니다.
이러한 문제를 해결하기 위해 Zhiyuan Research Institute는 Shanghai Jiaotong University, Peking University 및 Beijing University of Post and Telecommunications와 함께 Video-XL을 제안했습니다 언어 모델. Video-XL의 핵심에는 LLM에 내재 된 컨텍스트 모델링 기능을 활용하여 긴 시각적 표현을보다 컴팩트 한 형태로 효과적으로 압축합니다.

간단히 말해서, 모델이 쇠고기를 쇠고기 에센스 한 그릇에 집중시키는 것처럼 비디오 내용을보다 간소화 된 형태로 압축하는 것입니다.
이 압축 기술은 효율성을 향상시킬뿐만 아니라 비디오의 주요 정보를 효과적으로 유지합니다. 긴 비디오는 종종 노부인의 발 바인딩과 같은 많은 중복 정보로 가득 차 있다는 것을 알아야합니다. Video-XL은 이러한 쓸모없는 정보를 정확하게 제거하고 본질 만 유지하여 긴 비디오 컨텐츠를 이해할 때 모델이 방향을 잃지 않도록합니다.

Video-XL은 이론적으로 매우 강력 할뿐만 아니라 매우 강력한 실용적 능력을 가지고 있습니다. Video-XL은 여러 번의 긴 비디오 이해 벤치 마크, 특히 VNBench 테스트에서 기존 방법보다 거의 10% 높은 정확도를 이끌고 있습니다.
더욱 인상적인 점은 비디오 -XL이 효율성과 효과 사이의 놀라운 균형을 맞추고 단일 80GB GPU에서 2048 프레임의 비디오를 처리하면서 "Haystack에서 바늘 찾기"평가 속도에서 거의 95% 정확도를 유지할 수 있다는 것입니다.
Video-XL은 매우 광범위한 응용 프로그램 전망을 가지고 있습니다. 일반적인 긴 비디오를 이해하는 것 외에도 영화 요약, 이상 탐지 모니터링 및 광고 임플란트 인식과 같은 특정 작업에 유능할 수 있습니다.
이것은 미래에 영화를 볼 때 긴 음모를 견딜 필요가 없음을 의미합니다. 수동 스토킹보다 훨씬 더 효율적입니다.
프로젝트 주소 : https://github.com/vectorspacelab/video-xl
종이 : https://arxiv.org/pdf/2409.14485
요컨대, Video-XL은 매우 긴 비디오 이해 분야에서 획기적인 진전을 이루었습니다.