最近、Step YuexingchenとGeely Automobile Groupは、主要な技術的ブレークスルーを共同で発表しました。つまり、2段階シリーズマルチモーダルモデル、つまりStep-Video-T2Vビデオ生成モデルとStep-Audio Voiceモデルを発表しました。このコラボレーションは、ビデオ生成と音声処理の分野での別の飛躍を示し、開発者に強力なツールサポートを提供します。
その中で、Step-Video-T2Vビデオ生成モデルは、300億パラメーターと優れたパフォーマンスで世界をリードしています。このモデルは、204フレームと540pの解像度で高品質のビデオを直接生成し、生成されたコンテンツの情報密度と一貫性を確保できます。評価の結果は、ステップビデオT2Vがコマンドコンプライアンス、動きの滑らかさ、物理的合理性、美学で優れたパフォーマンスを発揮し、既存のオープンソースビデオモデルを大幅に上回っていることを示しています。

現在、これらの2つのモデルはYuewenアプリで利用可能になり、開発者は無料で体験し、貴重な提案を提供できます。 Step-Video-T2Vビデオ生成モデルは、複雑な動き、美しいキャラクター、視覚的な想像力における優れた生成能力を示しています。指示を正確に理解し、ビデオクリエイターが創造的なプレゼンテーションを効率的に達成するのに役立ちます。エレガントなバレエ、激しい空手対立、または緊張したバドミントンゲームと高速フリップダイビングのいずれであっても、ステップビデオT2Vは実際の物理的に一貫した写真を生成できます。
さらに、このモデルは、さまざまなレンズの動きモードとシーンタイプもサポートして、大規模なミラー運動の視覚効果を生成します。生成されたキャラクターはより現実的で鮮明で、豊かな詳細と自然な表現があり、ビデオ作成の可能性が増えます。
開発者は、次のリンクからより多くの技術的な詳細とリソースを取得できます。
github: https://github.com/stepfun-ai/step-audio
抱きしめる顔: https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
技術レポート: https://github.com/stepfun-ai/step-audio/blob/main/assets/step-audio.pdf