Meta は、サウジアラビアのキング・アブドラ科学技術大学 (KAUST) と提携して、MarDini と呼ばれるビデオ普及モデルの新しいラインを立ち上げました。このモデルは、高品質のビデオを簡単かつ効率的に作成でき、ビデオフレームの充填、画像からビデオへの変換、ビデオ拡張などの複数の機能を実装し、ビデオ作成プロセスを大幅に簡素化します。 Downcodes の編集者が、MarDini モデルの特徴と利点、およびビデオ処理分野における画期的な貢献について詳しく説明します。
最近、Meta はサウジアラビアのキング・アブドラ科学技術大学 (KAUST) と提携して、ビデオ普及モデルの新しいラインである MarDini を立ち上げました。このモデルは、ビデオの欠落したフレームを埋めたり、単一の写真をダイナミックなシーンに変換したり、自然な連続フレーム部分を追加して短いクリップを延長したりするなど、高品質のビデオの作成をより簡単かつ柔軟にします。

MarDini には、既存のビデオを任意の長さに調整してビデオを拡張する機能もあります。 5 フレームのリファレンス ビデオから 2 秒の延長部分を生成することで、各シーケンスに 12 個の新しいフレームを追加します。
MarDini は、最初と最後のフレームを調整信号として使用して中間フレームを生成することにより、ビデオ補間を実装します。これらの境界フレームが同じである場合、MarDini はシームレスなループ ビデオを作成できます。
マルディーニの仕組みは非常に興味深いです。高度で効率的なビデオ生成テクノロジーを使用しており、主に計画モデルと生成モデルの 2 つの部分で構成されます。まず、計画モデルはマスク自己回帰 (MAR) 法を使用して、低解像度の入力フレームを解釈し、作成する必要があるフレームのガイダンス信号を生成します。次に、軽量の生成モデルが拡散プロセスを使用して高解像度の詳細なフレームを生成し、最終的なビデオが滑らかで視覚的に心地よいものになるようにします。
複雑な事前トレーニングされた画像モデルを必要とする多くのビデオ モデルとは異なり、MarDini はラベルのないビデオ データを使用してゼロからトレーニングされると主張しています。これは、プログレッシブ トレーニング戦略を採用しているためです。これにより、トレーニング プロセス中にフレームのマスキング方法を柔軟に調整することで、モデルがさまざまなフレーム構成に適切に対処できるようになります。
MarDini の際立った特徴は、その柔軟性とパフォーマンスです。強力なだけでなく効率的であり、大規模なタスクに適しています。このモデルは、既存のビデオ クリップをスムージングする場合でも、完全なシーケンスを最初から作成する場合でも、ビデオ補間、画像からビデオへの生成、ビデオ拡張などのタスクを処理できます。
パフォーマンスの面では、MarDini は新しいベンチマークを設定し、より少ない手順で高品質のビデオを生成するため、より複雑な代替手段と比較してコストと時間の効率が高くなります。公式研究論文には、「私たちの研究は、私たちのモデリング戦略が、同等のパラメーター スケールで計算要件を削減しながら、さまざまな補間およびアニメーション ベンチマークで競合的に機能することを示しています。」と述べています。
プロジェクト入口: https://mardini-vidgen.github.io/
全体として、MarDini モデルは、その効率的なパフォーマンスと柔軟なアプリケーション シナリオにより、ビデオ作成の分野に新たな可能性をもたらします。その革新的な技術と優れたパフォーマンスにより、将来的にはビデオ生成と処理の分野で主要なテクノロジーになることが期待されています。 マルディーニが将来さらに驚きをもたらすことを楽しみにしています!