Meta与沙特阿拉伯阿卜杜拉国王科技大学(KAUST)合作,推出了一款名为MarDini的全新视频扩散模型系列。该模型能够轻松高效地创建高质量视频,实现视频帧填充、图像转视频、视频扩展等多种功能,极大地简化了视频创作流程。Downcodes小编将为您详细解读MarDini模型的特性和优势,以及其在视频处理领域的突破性贡献。
最近,Meta 与沙特阿拉伯的阿卜杜拉国王科技大学(KAUST)合作,推出了一款全新的视频扩散模型系列 ——MarDini。这个模型让高质量视频的创作变得更加简单和灵活,能够完成多种任务,比如填补视频中缺失的帧,将单张图片转换为动态场景,甚至还可以通过添加自然的连续帧来扩展短片段。

MarDini 还能够通过调节任何时长的现有视频来扩展视频。我们通过从5帧参考视频生成2秒扩展,为每个序列添加12个新帧。
MarDini 通过使用第一帧和最后一帧作为调节信号生成中间帧来实现视频插值。当这些边界帧相同时,MarDini 可以创建无缝循环视频。
MarDini 的工作原理非常有趣。它采用了先进而高效的视频生成技术,主要由两个部分构成:规划模型和生成模型。首先,规划模型会利用掩码自回归(MAR)方法来解释低分辨率的输入帧,生成需要创建的帧的指导信号。然后,轻量级的生成模型通过扩散过程来生成高分辨率的详细帧,从而确保最终视频流畅且视觉效果良好。
与许多需要复杂预训练图像模型的视频模型不同,MarDini 声称可以从零开始使用未标记的视频数据进行训练。这是因为它采用了渐进式训练策略,通过灵活地调整训练过程中帧的掩码方式,使得模型能够更好地应对不同的帧配置。
MarDini 的一个显著特点就是其灵活性和性能。它不仅强大而且高效,适用于更大规模的任务。这个模型能够处理视频插值、图像转视频生成和视频扩展等多种任务,无论是平滑现有的视频片段,还是从头开始创建完整的序列,它都能游刃有余。
在性能方面,MarDini 设定了新的基准,以更少的步骤生成高质量视频,这使得它在成本和时间上都比更复杂的替代方案更具优势。官方研究论文指出,“我们的研究表明,我们的建模策略在多种插值和动画基准测试中表现出竞争力,同时在可比参数规模下降低了计算需求。”
项目入口:https://mardini-vidgen.github.io/
总而言之,MarDini 模型凭借其高效的性能和灵活的应用场景,为视频创作领域带来了新的可能性。其创新性的技术和优越的性能,使其有望成为未来视频生成和处理领域的领先技术。 期待MarDini在未来带来更多惊喜!