近日,阿里巴巴在深夜发布了全新的开源视频生成模型 Wan2.1,这一模型凭借其14B 的参数量迅速登顶 VBench 榜单,成为当前视频生成领域的领军者。与之前发布的 QwQ-Max 相比,Wan2.1在复杂运动的细节处理上表现尤为出色,能够流畅地实现多个人物的同步舞蹈,展现了其强大的技术实力。
在官方演示中,Wan2.1不仅成功解决了静态图像生成中的难题,还在文字处理方面达到了新的高度。尽管14B 的参数在个人消费级显卡上部署存在一定困难,但阿里特别推出了1.3B 的小版本,支持480P 分辨率,使用12GB 显存的4070显卡即可流畅运行,为普通用户提供了更多选择。

除了14B 和1.3B 版本,阿里还发布了两个额外的视频生成模型,均采用 Apache2.0协议,用户可以免费商用。用户可以通过阿里提供的平台访问这款模型,快速生成视频。然而,由于用户量激增,有时可能会出现等待时间过长的情况。对于有一定技术基础的用户,还可以通过 HuggingFace 和魔搭社区等多种途径自行安装和调试。
Wan2.1的最大亮点在于其技术创新。该模型采用了 Diffusion Transformer 架构,并结合3D 变分自动编码器,专门为视频生成设计。通过引入多种压缩和并行策略,该模型在保证质量的同时,大幅提高了生成效率。研究表明,Wan 的重建速度是当前同类技术的2.5倍,显著节省了计算资源。
在用户体验方面,Wan2.1也获得了广泛好评。无论是生成动态场景中的细节,还是自然的物理效果,模型的表现都令人印象深刻。用户们通过该模型不仅能够制作出高质量的视频作品,还能轻松实现文字的动态呈现,为创作带来了更多可能性。
阿里巴巴的 Wan2.1模型不仅技术先进,还为广大创作者提供了更多的创作自由度,标志着视频生成技术的又一重大突破。这一模型的发布,无疑将进一步推动视频生成领域的发展,为用户带来更多创新体验。