近日,阿里巴巴在深夜發布了全新的開源視頻生成模型Wan2.1,這一模型憑藉其14B 的參數量迅速登頂VBench 榜單,成為當前視頻生成領域的領軍者。與之前發布的QwQ-Max 相比,Wan2.1在復雜運動的細節處理上表現尤為出色,能夠流暢地實現多個人物的同步舞蹈,展現了其強大的技術實力。
在官方演示中,Wan2.1不僅成功解決了靜態圖像生成中的難題,還在文字處理方面達到了新的高度。儘管14B 的參數在個人消費級顯卡上部署存在一定困難,但阿里特別推出了1.3B 的小版本,支持480P 分辨率,使用12GB 顯存的4070顯卡即可流暢運行,為普通用戶提供了更多選擇。

除了14B 和1.3B 版本,阿里還發布了兩個額外的視頻生成模型,均採用Apache2.0協議,用戶可以免費商用。用戶可以通過阿里提供的平台訪問這款模型,快速生成視頻。然而,由於用戶量激增,有時可能會出現等待時間過長的情況。對於有一定技術基礎的用戶,還可以通過HuggingFace 和魔搭社區等多種途徑自行安裝和調試。
Wan2.1的最大亮點在於其技術創新。該模型採用了Diffusion Transformer 架構,並結合3D 變分自動編碼器,專門為視頻生成設計。通過引入多種壓縮和並行策略,該模型在保證質量的同時,大幅提高了生成效率。研究表明,Wan 的重建速度是當前同類技術的2.5倍,顯著節省了計算資源。
在用戶體驗方面,Wan2.1也獲得了廣泛好評。無論是生成動態場景中的細節,還是自然的物理效果,模型的表現都令人印象深刻。用戶們通過該模型不僅能夠製作出高質量的視頻作品,還能輕鬆實現文字的動態呈現,為創作帶來了更多可能性。
阿里巴巴的Wan2.1模型不僅技術先進,還為廣大創作者提供了更多的創作自由度,標誌著視頻生成技術的又一重大突破。這一模型的發布,無疑將進一步推動視頻生成領域的發展,為用戶帶來更多創新體驗。