この論文では、シングルビュー ビデオから高品質のアニメーション オブジェクトを効率的に生成できる L4GM と呼ばれる大規模 4D ガウス再構成モデルを紹介します。マルチビュービデオを含む大規模なデータセットでトレーニングされ、片方向送信でわずか 1 秒の高速処理速度を達成するように革新的に設計されています。 L4GM の利点は、長いビデオと高フレーム レートのビデオを再構築できること、および 4D 補間をサポートしてビデオ フレーム レートを大幅に向上できることです。さらに、このモデルは優れた汎化能力も示しており、実際のシーンのビデオでも満足のいく結果を達成できます。
最近、研究チームは、L4GM と呼ばれる大規模 4D ガウス再構成モデルを提案しました。これは、シングルビューのビデオ入力からアニメーション オブジェクトを生成し、印象的な結果を達成できます。
このモデルの鍵となるのは、革新的なデータ セットと簡素化された設計です。これにより、出力アニメーション オブジェクトの高品質を確保しながら、一方向の転送をわずか 1 秒で完了することができます。
ビデオから 4D への合成
L4GM はビデオから 4D オブジェクトを数秒で生成できます。次のビデオの例では、元のビデオ内のターゲット オブジェクトと、対応して生成された 4D ガウス再構成モデルを確認できます。
長時間、高 FPS、柔軟なビデオを再構築する
そして、10 秒間の 30fps ビデオを再構築します。次のビデオの例として、
4D補間
チームはまた、フレーム レートを 3 倍高めるために 4D 補間モデルをトレーニングしました。次のビデオの例として、
左: 補間前。右: 補間後
パースペクティブビデオデータセットを構築する
研究チームは、Objaverse から慎重に作成され、レンダリングされたアニメーション オブジェクトを含むマルチビュー ビデオを含むデータセットを構築しました。このデータセットには、48 の視点からの 110,000 のアニメーションをカバーする 44,000 の多様なオブジェクトが表示され、合計 3 億フレームの合計 1 億 2,000 万のビデオが表示されます。このデータセットに基づいて、L4GM は、多視点画像入力から 3D ガウス楕円体を出力する、事前トレーニング済みの 3D 大規模再構成モデル LGM 上に直接構築されます。
L4GM は、低 fps でサンプリングされたビデオ フレーム上の各フレームの 3D ガウス スプラッシュ表現を生成し、その表現をより高い fps にアップサンプリングすることで、時間的な滑らかさを実現します。
モデルが時間的一貫性を学習できるようにするために、研究チームは基本的な LGM に時間的セルフアテンション レイヤーを追加し、各タイム ステップでマルチビュー レンダリング ロスを使用してモデルをトレーニングしました。補間モデルをトレーニングすることにより、この表現はより高いフレーム レートにアップサンプリングされ、中間の 3D ガウス表現が得られます。
研究チームは、合成データでトレーニングした後、実際のビデオで L4GM の優れた一般化能力を実証し、高品質のアニメーション 3D オブジェクトを生成しました。このモデルは、シングルビュー ビデオとシングル タイム ステップのマルチビュー 画像を入力として受け取り、一連の 4D ガウス確率分布を出力します。
技術的枠組み

このモデルは、シングルビュー ビデオとシングル タイム ステップのマルチビュー イメージを入力として受け取り、一連の 4D ガウスを出力します。 U-Net アーキテクチャを採用し、ビュー間のセルフ アテンションを使用してビューの一貫性を実現し、時間から空間へのセルフ アテンションを使用して時間的な一貫性を実現します。

L4GM では、最後のガウスのマルチビュー レンダリングを次の再構成への入力として使用して、自己回帰再構成が可能です。 2 つの連続する再構成の間には、重複するフレームが 1 つあります。さらに、研究チームは4D補間モデルのトレーニングも行いました。補間モデルは、再構成結果からレンダリングされた補間された多視点ビデオを受け取り、補間されたガウスを出力します。
L4GM に該当するシナリオは次のとおりです。
ビデオ コンテンツの生成: L4GM は、シングルビュー ビデオ入力からアニメーション オブジェクトの 4D モデルを生成できます。これは、ビデオ特殊効果の制作、ゲーム開発、その他の分野に幅広く応用できます。たとえば、特殊効果アニメーションの生成、仮想シーンの構築などに使用できます。
ビデオの再構築と修復: L4GM は、長時間の高フレーム レートのビデオを再構築でき、ビデオの品質と鮮明さを向上させるためのビデオの修復と復元に使用できます。これは、フィルムの復元、ビデオ圧縮、およびビデオ処理に役立ちます。
ビデオ補間: トレーニングされた 4D 補間モデルを通じて、L4GM はビデオのフレーム レートを高め、ビデオをより滑らかにすることができます。これは、ビデオ編集、スローモーション/ファストモーションエフェクトの制作などに応用できる可能性があります。
3D アセットの生成: L4GM は、高品質のアニメーション 3D アセットを生成できます。これは、仮想現実 (VR)、拡張現実 (AR) アプリケーション、およびゲーム開発での 3D モデルの生成に非常に役立ちます。
製品入口:https://top.aibase.com/tool/l4gm
全体として、L4GM モデルは 4D ガウス再構成の分野で大きな進歩を遂げており、その高効率、高品質の出力、および広範な応用の可能性により、L4GM モデルは非常に重要な研究成果となっています。 このモデルの登場により、ビデオ処理や 3D アセット生成などの分野の進歩が大きく促進されるでしょう。