Alibabaは最近、ビデオ生成モデルの完全なオープンソースであるWanxiang 2.1を発表し、2つのバージョン14Bと1.3Bを発表しました。プロのバージョンとして、14Bバージョンは高性能で、ビデオ品質の非常に高い要件を持つシナリオに適した業界のトップビデオ表現を提供できます。 1.3Bバージョンは、消費者グラフィックスカードに適した高速バージョンであり、8.2GBのビデオメモリしかない480pの高品質ビデオを生成できます。これは、二次モデル開発と学術研究に非常に適しています。

公式報告によると、Wanxiang 2.1は、複雑な動きの取り扱い、実際の物理的法則の回復、映画やテレビの質感の改善、および指示の最適化において、クリエイター、開発者、企業ユーザーの多様なニーズを満たすことができます。 Tongyi wanxiangを通じて、ユーザーは、特に広告の分野や創造性の高い要件を満たす広告や短いビデオの分野で簡単に達成できます。
権威あるレビューセットVBenchでは、Tongyi Wanxiangが合計スコア86.22%で最初にランクされ、SORA、MINIMAX、LUMAなどの他の国内および外国のビデオ生成モデルをはるかに上回りました。この評価は、主流のDITおよび線形ノイズ軌道フローに合わせてパラダイムに基づいており、一連の技術革新を通じてモデルの生成能力を向上させます。特に、自己開発の高効率の3D因果VAEモジュールは、256倍のロスレスビデオ隠されたスペース圧縮を正常に実現し、あらゆる長さのビデオの効率的なエンコードとデコードをサポートします。

ビデオを生成する過程で、Tongyi Wanxiangは、主流のDIT構造に基づいた完全な注意メカニズムを採用して、時空依存を効果的にモデル化し、生成されたビデオの高品質と一貫性を確保します。モデルトレーニング戦略は、6段階のステップバイステップトレーニング方法を採用し、予備的な低解像度データトレーニングから高解像度データを徐々に導入して、さまざまな条件下でモデルの優れたパフォーマンスを確保します。さらに、Tongyi Wanxiangは、トレーニングデータの高品質を確保するために、データ処理に厳しいクリーニングプロセスを採用しています。
トレーニングと推論効率の最適化の観点から、Tongyi Wanxiangは、モデルトレーニングの安定性と推論効率を確保するために、分散トレーニング戦略、アクティベーション価値の最適化、ビデオメモリ管理など、さまざまな高度な技術を採用しています。それをAlibaba Cloud Training Clusterのインテリジェントなスケジューリングと組み合わせることにより、モデルは障害を自動的に識別し、トレーニングプロセス中に迅速に再起動し、トレーニングプロセスのスムーズな進行を確保できます。
Tongyi wanxiang 2.1は、GithubやHugging Faceなどのプラットフォームで開かれ、さまざまな主流のフレームワークをサポートし、開発者と研究者に便利なユーザーエクスペリエンスを提供します。迅速なプロトタイプ開発であろうと効率的な生産展開であろうと、Tongyi Wanxiangはさまざまなユーザーのニーズを満たし、ビデオ生成テクノロジーの開発に新しい活力を注入できます。

マジックタワーコミュニティの入り口:https://modelscope.cn/organization/wan-ai
キーポイント:
Tongyi wanxiang 2.1はオープンソースであり、多様なビデオ生成ニーズをサポートしています。
VBenchレビューで86.22%の高いスコアで勝つため、他のモデルをリードしています。
段階的なトレーニングと複数の技術的最適化が採用され、生成の効率と品質が向上しています。