上海階躍星辰智能科技有限公司近日宣布開源其最新研發的圖生視頻模型——Step-Video-TI2V。這一模型基於30B參數的Step-Video-T2V訓練而成,能夠生成102幀、5秒、540P分辨率的視頻,具備運動幅度可控和鏡頭運動可控兩大核心特點,尤其在動漫效果方面表現卓越。與現有的開源圖生視頻模型相比,Step-Video-TI2V不僅在參數規模上提供了更高的上限,其運動幅度可控能力還能平衡視頻生成結果的動態性和穩定性,為創作者提供了更靈活的選擇。

在Step-Video-TI2V的開發過程中,團隊進行了兩大關鍵優化。首先,引入圖像條件以提高生成視頻與原圖的一致性。與傳統的cross-attention方法不同,該模型採用了更直接的方式,將圖像對應的向量表示與DiT第一幀對應的向量表示直接進行channel維度的拼接,從而確保生成的視頻與輸入圖片高度一致。其次,通過AdaLN模塊引入視頻動態性打分信息,使用戶在生成視頻時可以指定不同的運動級別,精準控制視頻的動態幅度,從而平衡動態性、穩定性和一致性。此外,團隊還對主體動作和鏡頭運動進行了專項精準標註,進一步提升了模型在主體動態性和運鏡效果上的表現。
Step-Video-TI2V的核心特點包括運動幅度可控、多種運鏡控制、動漫效果優異以及支持多尺寸生成。用戶可以根據創作需求自由切換動態與穩定畫面,生成從基本的推拉搖移、升降到復雜電影級運鏡效果的視頻。該模型在動漫類任務上的表現尤為突出,非常適合動畫創作和短視頻製作等應用場景。同時,它支持多種尺寸的圖生視頻,無論是橫屏、豎屏還是方屏,都能滿足不同平台的需求。
體驗地址:
https://yuewen.cn/videos
GitHub:
https://github.com/stepfun-ai/Step-Video-TI2V
Github-ComfyUI:
https://github.com/stepfun-ai/ComfyUI-StepVideo