在视频生成领域,OpenAI Sora 一直以其高昂的训练成本和卓越的性能被视为行业标杆。然而,潞晨科技近日宣布开源其视频生成模型 Open-Sora2.0,这一消息无疑在业界引起了巨大轰动。Open-Sora2.0 以其极低的训练成本和接近顶级模型的性能,迅速成为视频生成技术的新焦点。
Open-Sora2.0 的训练成本仅为 20 万美元,相当于 224 张 GPU 的投入,却成功训练出了一个拥有 110 亿参数的商业级视频生成大模型。这一成就不仅展示了潞晨科技在技术上的突破,也为视频生成领域带来了新的可能性。

尽管 Open-Sora2.0 的成本远低于 OpenAI Sora,但其性能却毫不逊色。在权威评测 VBench 和用户偏好测试中,Open-Sora2.0 的表现令人瞩目,多项关键指标上甚至能够媲美那些花费数百万美元训练的闭源模型。特别是在 VBench 评测中,Open-Sora2.0 与 OpenAI Sora 之间的性能差距从之前的 4.52% 大幅缩小至仅 0.69%,几乎实现了性能上的全面追平。
更令人振奋的是,Open-Sora2.0 在 VBench 中的得分甚至超过了腾讯的 HunyuanVideo,展现了其在视频生成技术上的强大实力。这一成就不仅证明了 Open-Sora2.0 的技术优势,也为开源视频生成技术树立了新的标杆。
在用户偏好评测中,Open-Sora2.0 在视觉表现、文本一致性和动作表现这三个关键维度上,至少有两个指标都超越了开源 SOTA 模型 HunyuanVideo 以及商业模型 Runway Gen-3Alpha 等。这一成绩进一步巩固了 Open-Sora2.0 在视频生成领域的领先地位。

Open-Sora2.0 之所以能够以如此低的成本实现如此高的性能,背后有着一系列的技术创新和优化策略。首先,Open-Sora2.0 延续了 Open-Sora1.2 的设计思路,采用了 3D 自编码器和 Flow Matching 训练框架,并引入了 3D 全注意力机制,进一步提升了视频生成质量。
为了追求极致的成本优化,Open-Sora2.0 从多个方面入手:严格的数据筛选确保了高质量的训练数据输入,优先进行低分辨率训练以高效学习运动信息,优先训练图生视频任务以加速模型收敛,并采用了高效的并行训练方案,结合 ColossalAI 和系统级优化,大幅提升了计算资源利用率。
据估计,市面上 10B 以上的开源视频模型,单次训练成本动辄上百万美元,而 Open-Sora2.0 将这个成本降低了 5-10 倍。这一突破不仅降低了高质量视频生成的门槛,也让更多开发者有机会参与到视频生成技术的研发中来。
更令人称赞的是,Open-Sora2.0 不仅开源了模型代码和权重,还开源了全流程训练代码,这无疑将极大地促进整个开源生态的发展。Open-Sora2.0 的学术论文引用量在半年内就获得了近百引用,在全球开源影响力排名中稳居首位,成为全球影响力最大的开源视频生成项目之一。
Open-Sora2.0 团队还积极探索高压缩比视频自编码器的应用,以大幅降低推理成本。他们训练了一款高压缩比(4×32×32)的视频自编码器,将单卡生成 768px、5 秒视频的推理时间从近 30 分钟缩短至 3 分钟以内,速度提升了 10 倍。这一创新意味着未来我们能够更快地生成高质量的视频内容。
潞晨科技推出的开源视频生成模型 Open-Sora2.0,以其低成本、高性能、全面开源的特性,无疑给视频生成领域带来了一股强劲的“平价”风。它的出现,不仅缩小了与顶级闭源模型之间的差距,更降低了高质量视频生成的门槛,让更多开发者能够参与其中,共同推动视频生成技术的发展。
GitHub 开源仓库:https://github.com/hpcaitech/Open-Sora
技术报告:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf