在当今数字时代,AI生成的短视频已经变得司空见惯,然而,这些视频往往缺乏深度和连贯性,难以真正打动观众。为了解决这一问题,长上下文调整(Long Context Tuning, LCT)技术应运而生。这项技术赋予AI视频生成模型执导多镜头叙事视频的能力,使其能够像电影和电视剧一样,在不同镜头之间自由切换,构建出更加连贯和引人入胜的故事场景。

过去,顶尖的AI视频生成模型,如SoRA、Kling和Gen3,已经能够生成长达一分钟的逼真单镜头视频。然而,这些模型在生成多镜头叙事视频时,仍然存在巨大的挑战。一个电影场景通常由多个捕捉同一连贯事件的不同单镜头视频组成,这要求模型在视觉外观和时间动态上保持高度的一致性。
以电影《泰坦尼克号》中杰克和露丝在甲板上相遇的经典场景为例,该场景包含了四个主要镜头:杰克回头的特写、露丝说话的中景、露丝走向杰克的广角镜头,以及杰克从背后拥抱露丝的特写。生成这样的场景,不仅需要确保人物特征、背景、光线和色调的一致性,还需要保持人物动作的节奏和相机运动的平滑度,以保证叙事的流畅性。
为了弥合单镜头生成和多镜头叙事之间的差距,研究人员提出了多种方法,但这些方法大多存在局限性。一些方法依赖于输入关键的视觉元素来强制保持跨镜头的视觉一致性,但难以控制光线和色调等更抽象的元素。另一些方法则先生成一组连贯的关键帧,再利用图像到视频(I2V)模型独立合成每个镜头,这又难以保证镜头之间的时间一致性,并且稀疏的关键帧也限制了条件的有效性。
LCT技术的出现,正是为了解决这些难题。它通过扩展单镜头视频扩散模型的上下文窗口,使其能够直接从场景级别的视频数据中学习镜头间的连贯性。LCT的核心创新设计包括全注意力机制的扩展、交错的3D位置嵌入和异步噪声策略。这些设计使得模型在生成视频时,能够同时“关注”整个场景的所有视觉和文本信息,从而更好地理解和维护跨镜头的依赖关系。
实验结果表明,经过LCT调整的单镜头模型在生成连贯的多镜头场景方面表现出色,并展现出一些令人惊喜的新能力。例如,它可以根据给定的角色身份和环境图像进行组合生成,即使模型之前没有接受过此类任务的专门训练。此外,LCT模型还支持自回归的镜头扩展,无论是连续的单镜头延伸还是带有镜头切换的多镜头扩展都可以实现。这项特性对于长视频的创作尤其有用,因为它将长视频生成分解为多个场景片段,方便用户进行交互式修改。
更进一步,研究人员还发现,在LCT之后,具有双向注意力的模型可以进一步微调为上下文因果注意力。这种改进的注意力机制在每个镜头内部仍然保持双向关注,但在镜头之间,信息只能从先前的镜头流向后续镜头。这种单向的信息流使得在自回归生成过程中可以高效地利用KV-cache(一种缓存机制),从而显著降低计算开销。
如图1所示,LCT技术可以直接应用于短片制作,实现场景级的视频生成。更令人兴奋的是,它还催生了交互式多镜头导演、单镜头扩展以及零样本的组合生成等多种新兴能力,尽管模型从未针对这些特定任务进行过训练。如图2展示了一个场景级视频数据的示例,它包含全局提示(描述角色、环境和故事梗概)以及针对每个镜头的具体事件描述。
总而言之,长上下文调整(LCT)通过扩展单镜头视频扩散模型的上下文窗口,使其能够直接从数据中学习场景级的连贯性,为更实用的视觉内容创作开辟了新的道路。这项技术不仅提升了AI生成视频的叙事能力和连贯性,也为未来的长视频生成和交互式视频编辑提供了新的思路。我们有理由相信,未来的视频创作将因为LCT等技术的进步而变得更加智能化和更具创造力。
项目地址:https://top.aibase.com/tool/zhangshangxiawentiaoyoulct
论文地址:https://arxiv.org/pdf/2503.10589