最近、Alibabaは夜遅くに新しいオープンソースビデオ生成モデルWAN2.1をリリースしました。このモデルは、Vbenchリストの14Bパラメーターボリュームですぐにトップになり、ビデオ生成分野の現在のリーダーになりました。以前にリリースされたQWQ-Maxと比較して、WAN2.1は複雑な動きの詳細で特によく機能し、複数のキャラクターの同期ダンスをスムーズに実現することができ、その強い技術的強さを示しています。
公式のデモンストレーションでは、WAN2.1は静的な画像生成の困難をうまく解決しただけでなく、ワードプロセッシングの新しいレベルにも到達しました。個人消費者グラフィックスカードに14Bパラメーターを展開することには特定の困難がありますが、Alibabaは特別に1.3Bの小さなバージョンを発売しました。これは480p解像度をサポートし、12GBのグラフィックメモリを備えた4070グラフィックカードを使用してスムーズに実行でき、通常のユーザーにより多くの選択肢を提供します。

バージョン14Bと1.3Bに加えて、Alibabaは、ユーザーが無料で使用できるApache2.0プロトコルを使用して、2つの追加のビデオ生成モデルもリリースしています。ユーザーは、Alibabaが提供するプラットフォームを介してこのモデルにアクセスして、ビデオをすばやく生成できます。ただし、ユーザーの量が急増しているため、待機時間が長すぎる場合があります。特定の技術的基盤を持つユーザーの場合、ハグFaceやModai Communityなどのさまざまなチャネルを通じて、自分でインストールしてデバッグすることもできます。
WAN2.1の最大のハイライトは、その技術革新です。このモデルは、拡散トランスアーキテクチャを採用し、3D変異自動エンコーダーを組み合わせて、ビデオ生成専用に設計します。さまざまな圧縮戦略と並列戦略を導入することにより、このモデルは品質を確保しながら生成効率を大幅に改善します。調査によると、WANの再構成速度は現在の類似のテクノロジーの2.5倍であり、コンピューティングリソースを大幅に節約します。
ユーザーエクスペリエンスに関しては、WAN2.1も広範囲にわたる賞賛を受けています。動的なシーンで詳細を生成している場合でも、自然な物理的効果であれ、モデルのパフォーマンスは印象的です。このモデルを通じて、ユーザーは高品質のビデオ作品を作成するだけでなく、テキストの動的なプレゼンテーションを簡単に実現でき、作成により多くの可能性をもたらします。
AlibabaのWAN2.1モデルは、技術的に進歩しただけでなく、クリエイターにより創造的な自由を提供し、ビデオ生成テクノロジーのもう1つの大きなブレークスルーをマークしています。このモデルのリリースは、間違いなくビデオ生成分野の開発をさらに促進し、ユーザーにより革新的な体験をもたらすでしょう。