最近、Alibabaは、ビデオ生成モデルのWANX2.1が完全にオープンソースになることを発表し、最新のビデオ効果を発表しました。このニュースは、テクノロジーコミュニティに広範な注目を集めており、ビデオ生成の分野におけるAIテクノロジーのもう1つの大きなブレークスルーをマークしています。
2025年1月、AlibabaのTongyi WanxiangチームはWANX2.1マルチモーダルモデルを開始しました。ビデオ生成の分野での優れたパフォーマンスにより、このモデルはVbenchレビューリストのトップであり、AI駆動型の視覚的作成基準を再定義しました。 WANXチームは昨夜、最新のWANX2.1ビデオ生成モデルをオープンすると発表しました。
WANX2.1は、AIビデオモデルの長年のテキスト生成問題を初めて克服し、中国と英語のテキストの特殊効果をサポートする世界初のモデルになることが報告されています。ユーザーは、動的なビデオを生成し、多様な遷移、粒子、その他の特殊効果と一致させるためにテキスト命令を入力するだけです。さらに、自己開発の効率的なVAEおよびDITアーキテクチャを通じて、モデルは無限に長い1080pビデオの効率的なエンコードとデコードを実現し、空間的および時間的コンテキストモデリング機能を大幅に改善します。
物理的な法律シミュレーションに関しては、WANX2.1は衝突、リバウンド、切断などの複雑なシナリオを正確に復元できます。たとえば、「傘の表面に落ちて水をかける雨滴」または「フィギュアスケーターが回転する」というビデオを生成するとき、物理的な調整と動きの軌跡は実際の物理的法則に沿っており、伝統的なモデルの物理的歪みと硬い動きの問題を効果的に解決します。この技術的なブレークスルーは、AIビデオ生成に、より現実的でスムーズな視覚体験をもたらします。