本文介绍了一种名为L4GM的大规模4D高斯重建模型,该模型能够从单视角视频中高效生成高质量的动画对象。它基于一个包含多视角视频的大型数据集训练而成,并通过创新性的设计实现了单向传递只需一秒钟的快速处理速度。L4GM的优势在于其能够重建长视频、高帧率视频,并支持4D插值,显著提高视频帧率。此外,该模型还展现了良好的泛化能力,能够在真实场景视频中取得令人满意的效果。
近日,研究团队提出了一种名为 L4GM 的大规模4D 高斯重建模型,该模型能够从单视角视频输入中生成动画对象,实现了令人印象深刻的效果。
该模型的关键在于创新性的数据集以及简化的设计,使得在短短一秒内完成单向传递成为可能,同时保证了输出动画物体的高质量。
视频到4D合成
L4GM 可在几秒钟内从视频中生成4D 对象,如下视频示例,就可以看到原视频中目标对象,以及对应生成4D高斯重建模型。
重建长、高 FPS、灵活度视频
并且重建10秒长的30fps 视频。如下视频示例,
4D 插值
该团队还训练一个4D 插值模型,将帧速率提高3倍。如下视频示例,
左图:插值前。右:插值后
构建视角视频数据集
研究团队构建了一个包含多视角视频的数据集,其中包含来自 Objaverse 的精心制作、渲染的动画物体。这个数据集展示了4.4万个多样化的物体,涵盖了48个视角下的110,000个动画,总共产生了1.2亿个视频,共计3亿帧。基于此数据集,L4GM 直接在已经预训练的3D 大规模重建模型 LGM 的基础上构建,从多视角图像输入中输出3D 高斯椭球体。
L4GM 通过在低 fps 采样的视频帧上生成每帧的3D 高斯飞溅表示,然后将表示上采样到更高的 fps 以实现时间上的平滑性。
为了帮助模型学习时间上的一致性,研究团队在基础 LGM 上添加了时间自注意力层,并利用每个时间步的多视角渲染损失来训练模型。通过训练一个插值模型,该表示被上采样到更高的帧率,从而产生中间的3D 高斯表示。
研究团队展示了 L4GM 在合成数据上训练后在野外视频上的良好泛化能力,产生了高质量的动画3D 物体。该模型接受单视角视频和单时间步多视角图像作为输入,并输出一组4D 高斯概率分布。
技术框架

该模型将单视图视频和单时间步长多视图图像作为输入,并输出一组4D 高斯。它采用U-Net架构,使用跨视图自注意力实现视图一致性,使用时间跨时空自注意力实现时间一致性。

L4GM 允许自回归重建,使用最后一个高斯的多视图渲染作为下一个重建的输入。两个连续的重建之间存在一帧重叠。此外,研究团队还训练了一个4D 插值模型。插值模型接收从重建结果渲染的插值多视图视频,并输出插值高斯。
L4GM可应用场景包括:
视频内容生成:L4GM 可以从单视图视频输入中生成动画对象的4D 模型,这在视频特效制作、游戏开发等领域中具有广泛的应用。例如,可以用于生成特效动画、虚拟场景构建等。
视频重建与修复:L4GM 能够重建长时间、高帧率的视频,可以用于视频修复和恢复,提高视频质量和清晰度。这对于电影修复、视频压缩和视频处理中可能非常有用。
视频插值:通过训练的4D 插值模型,L4GM 可以增加视频的帧率,使视频更加流畅。这在视频编辑、慢动作 / 快动作效果制作等方面有着潜在的应用。
3D 资产生成:L4GM 可以生成高质量的动画3D 资产,这对于虚拟现实(VR)、增强现实(AR)应用和游戏开发中的3D 模型生成非常有用。
产品入口:https://top.aibase.com/tool/l4gm
总而言之,L4GM模型在4D高斯重建领域取得了显著进展,其高效性、高质量输出以及广泛的应用前景使其成为一项具有重要意义的研究成果。 该模型的出现将极大推动视频处理和3D资产生成等领域的进步。