Shanghai Jieyue Xingchen Intelligent Technology Co.、Ltd。は最近、グラフィックビデオモデルの最新の開発のオープンソースであるStep-Video-Ti2vを発表しました。このモデルは、30BパラメーターのステップビデオT2Vトレーニングに基づいています。 102フレーム、5秒、540p解像度のビデオを生成できます。特にアニメーション効果の点で、制御可能なモーション振幅と制御可能なレンズ運動の2つのコア機能があります。既存のオープンソースビデオモデルと比較して、Step-Video-Ti2Vはパラメータースケールでより高い上限を提供するだけでなく、その制御可能なモーション振幅もビデオ生成結果のダイナミクスと安定性のバランスをとることができ、作成者により柔軟な選択肢を提供します。

Step-Video-Ti2Vの開発中、チームは2つの重要な最適化を実施しました。まず、生成されたビデオと元の画像との間の一貫性を改善するために、画像条件が導入されています。従来の交差に関する方法とは異なり、モデルはより直接的な方法を採用し、DITの最初のフレームに対応するベクトル表現を直接スプライしてチャネル寸法を直接スプライし、生成されたビデオが入力画像と非常に一致するようにします。第二に、ADALNモジュールはビデオの動的スコアリング情報を導入するため、ユーザーはビデオを生成するときに異なるモーションレベルを指定し、ビデオの動的振幅を正確に制御し、ダイナミクス、安定性、一貫性のバランスをとることができます。さらに、チームはまた、主題の動きとレンズの動きの特別な正確なマーカーを作成し、サブジェクトのダイナミクスとミラー運動効果におけるモデルのパフォーマンスをさらに改善しました。
Step-Video-Ti2Vのコア機能には、制御可能なモーション振幅、ミラーの複数の制御、優れたアニメーション効果、マルチサイズ生成のサポートが含まれます。ユーザーは、創造的なニーズに応じて動的で安定した写真を自由に切り替え、基本的なプッシュプル、揺れ、持ち上げ、下げて複雑な映画レベルのミラーエフェクトまでビデオを生成できます。このモデルは、アニメーションタスクで特に顕著であり、アニメーション作成や短いビデオ制作などのアプリケーションシナリオに非常に適しています。同時に、水平、垂直、または正方形の画面であろうと、さまざまなプラットフォームのニーズを満たすことができる、複数のサイズの画像生成ビデオをサポートします。
経験住所:
https://yuewen.cn/videos
Github:
https://github.com/stepfun-ai/step-video-ti2v
github-comfyui:
https://github.com/stepfun-ai/comfyui-stepvideo