在當今數字時代,AI生成的短視頻已經變得司空見慣,然而,這些視頻往往缺乏深度和連貫性,難以真正打動觀眾。為了解決這一問題,長上下文調整(Long Context Tuning, LCT)技術應運而生。這項技術賦予AI視頻生成模型執導多鏡頭敘事視頻的能力,使其能夠像電影和電視劇一樣,在不同鏡頭之間自由切換,構建出更加連貫和引人入勝的故事場景。

過去,頂尖的AI視頻生成模型,如SoRA、Kling和Gen3,已經能夠生成長達一分鐘的逼真單鏡頭視頻。然而,這些模型在生成多鏡頭敘事視頻時,仍然存在巨大的挑戰。一個電影場景通常由多個捕捉同一連貫事件的不同單鏡頭視頻組成,這要求模型在視覺外觀和時間動態上保持高度的一致性。
以電影《泰坦尼克號》中傑克和露絲在甲板上相遇的經典場景為例,該場景包含了四個主要鏡頭:傑克回頭的特寫、露絲說話的中景、露絲走向杰克的廣角鏡頭,以及傑克從背後擁抱露絲的特寫。生成這樣的場景,不僅需要確保人物特徵、背景、光線和色調的一致性,還需要保持人物動作的節奏和相機運動的平滑度,以保證敘事的流暢性。
為了彌合單鏡頭生成和多鏡頭敘事之間的差距,研究人員提出了多種方法,但這些方法大多存在局限性。一些方法依賴於輸入關鍵的視覺元素來強制保持跨鏡頭的視覺一致性,但難以控制光線和色調等更抽象的元素。另一些方法則先生成一組連貫的關鍵幀,再利用圖像到視頻(I2V)模型獨立合成每個鏡頭,這又難以保證鏡頭之間的時間一致性,並且稀疏的關鍵幀也限制了條件的有效性。
LCT技術的出現,正是為了解決這些難題。它通過擴展單鏡頭視頻擴散模型的上下文窗口,使其能夠直接從場景級別的視頻數據中學習鏡頭間的連貫性。 LCT的核心創新設計包括全注意力機制的擴展、交錯的3D位置嵌入和異步噪聲策略。這些設計使得模型在生成視頻時,能夠同時“關注”整個場景的所有視覺和文本信息,從而更好地理解和維護跨鏡頭的依賴關係。
實驗結果表明,經過LCT調整的單鏡頭模型在生成連貫的多鏡頭場景方面表現出色,並展現出一些令人驚喜的新能力。例如,它可以根據給定的角色身份和環境圖像進行組合生成,即使模型之前沒有接受過此類任務的專門訓練。此外,LCT模型還支持自回歸的鏡頭擴展,無論是連續的單鏡頭延伸還是帶有鏡頭切換的多鏡頭擴展都可以實現。這項特性對於長視頻的創作尤其有用,因為它將長視頻生成分解為多個場景片段,方便用戶進行交互式修改。
更進一步,研究人員還發現,在LCT之後,具有雙向注意力的模型可以進一步微調為上下文因果注意力。這種改進的注意力機制在每個鏡頭內部仍然保持雙向關注,但在鏡頭之間,信息只能從先前的鏡頭流向後續鏡頭。這種單向的信息流使得在自回歸生成過程中可以高效地利用KV-cache(一種緩存機制),從而顯著降低計算開銷。
如圖1所示,LCT技術可以直接應用於短片製作,實現場景級的視頻生成。更令人興奮的是,它還催生了交互式多鏡頭導演、單鏡頭擴展以及零樣本的組合生成等多種新興能力,儘管模型從未針對這些特定任務進行過訓練。如圖2展示了一個場景級視頻數據的示例,它包含全局提示(描述角色、環境和故事梗概)以及針對每個鏡頭的具體事件描述。
總而言之,長上下文調整(LCT)通過擴展單鏡頭視頻擴散模型的上下文窗口,使其能夠直接從數據中學習場景級的連貫性,為更實用的視覺內容創作開闢了新的道路。這項技術不僅提升了AI生成視頻的敘事能力和連貫性,也為未來的長視頻生成和交互式視頻編輯提供了新的思路。我們有理由相信,未來的視頻創作將因為LCT等技術的進步而變得更加智能化和更具創造力。
項目地址:https://top.aibase.com/tool/zhangshangxiawentiaoyoulct
論文地址:https://arxiv.org/pdf/2503.10589