智譜、清華大學和北京大學合作推出的長視頻理解基準測試項目LVBench,旨在解決現有多模態大型語言模型在處理長視頻時面臨的挑戰。該專案提供了涵蓋電視劇、體育轉播和監視器錄影等不同類型視訊內容的數小時QA數據,並包含6個主要類別和21個子類別,數據經過高品質標註,並使用LLM篩選出具有挑戰性的問題,涵蓋影片摘要、事件偵測、角色辨識和場景理解等多種任務。 LVBench的推出將推動長視訊理解技術的突破和創新,為實現具身智慧決策、深度影視評論和專業體育解說等應用提供有力支援。

這個項目包含了6個主要類別和21個子類別的數小時QA數據,涵蓋了來自公開來源的電視劇、體育轉播和日常監視器錄影等不同類型的影片內容。這些數據都經過高品質的標註,並使用LLM篩選出具有挑戰性的問題。據悉,LVBench資料集涵蓋了影片摘要、事件偵測、角色辨識和場景理解等多種任務。

LVBench基準的推出,不僅旨在檢驗模型在長視頻場景下的推理和運作能力,還將推動相關技術的突破和創新,為實現長視頻領域的具身智能決策、深度影視評論和專業體育解說等應用需求注入新動力。
許多研究機構已在LVBench資料集上開展工作,透過建立長視訊任務的大模型,逐步拓展人工智慧在理解長期資訊流方面的邊界,為視訊理解、多模態學習等領域的持續探索注入新的活力。
github:https://github.com/THUDM/LVBench
項目:https://lvbench.github.io
論文:https://arxiv.org/abs/2406.08035
LVBench計畫的推出標誌著長影片理解技術發展進入新的階段,其提供的豐富資料集和挑戰性任務將吸引更多研究者參與,加速人工智慧在長影片理解領域的進步,為未來應用帶來更多可能性。 期待未來更多基於LVBench的研究成果。