シングルレンズビデオからの3Dモーションの効率的な追跡は、特に長シーケンスビデオを扱い、ピクセルレベルの精度を追求する場合、コンピュータービジョンの分野で常に困難な問題でした。従来の方法は、リソースとアルゴリズムの複雑さを計算することで制限されているため、完全なシーンと集中的な3次元モーショントラッキングの詳細な理解を実現することが困難です。この記事では、このパズルを効率的に解決し、重要な結果を達成することを目的としたデルタと呼ばれる新しいアプローチを紹介します。
ビデオ処理の分野では、特に長いシーケンスのピクセルレベルの正確な追跡が必要な場合、シングルレンズビデオからの3次元の動きを効率的に追跡することは困難な問題でした。従来の方法は複数の課題に直面しており、多くの場合、少数のキーポイントを追跡するだけであり、完全なシナリオの詳細な理解を達成することはできません。

さらに、以前のアートのコンピューティングの要求は高く、長いビデオを処理する際に効率を維持することは困難です。同時に、長期追跡もカメラの動きやオブジェクトの閉塞などの問題の影響を受け、追跡エラーやエラーが発生します。
現在、ビデオシーケンスモーション推定の方法には、独自の利点と短所があります。光フローテクノロジーは集中的なピクセル追跡を提供しますが、特に長いシーケンスを扱う場合、複雑なシナリオでは不十分な靭性を示します。
シナリオフローは光学フローの拡張であり、RGB-Dデータまたはポイントクラウドを介した密な3次元運動を推定しますが、長いシーケンスで効率的に適用することは依然として困難です。ポイント追跡方法は、動きの軌跡をキャプチャし、空間的かつ時間的な注意を組み合わせてよりスムーズな追跡を実現することができますが、計算コストが高いため、集中的な監視を実現することは依然として困難です。さらに、再構築ベースの追跡方法は、変形場を使用して動きを推定しますが、リアルタイムアプリケーションではあまり実用的ではありません。

最近、マサチューセッツ大学アマースト、MIT-IBM人工知能研究所、SNAP Inc.の研究チームは、それぞれに設計されたテンションの種類であるデルタ(任意のビデオ用の密集した長距離追跡)を提案しました3次元空間のピクセル。 Deltaは、低解像度の追跡から始まり、時空間的な注意メカニズムを採用し、高解像度の精度のために注意ベースのアップサンプラーを適用します。その主要な革新には、明確なモーション境界のためのUpsamplers、効率的な空間的注意アーキテクチャ、および強化された追跡パフォーマンスのログ深い表現が含まれます。
DeltaはCVOおよびKubric3Dデータセットで高度な結果を達成しており、平均Jacard(AJ)や3D平均位置差(APD3D)などのインジケータで10%以上改善し、TAP-VID3DやLSFodysseyなどの3Dポイント追跡ベンチマークでも改善しています。並外れた。既存の方法とは異なり、デルタは、業界をリードする精度を維持しながら、以前の方法よりも8倍以上速く実行され、規模の集中的な3次元追跡を実装しています。
実験では、デルタが3次元追跡タスクで優れたパフォーマンスを発揮し、速度と精度が以前の方法を超えていることを示しています。 DeltaはKubric Datasetでトレーニングされており、5600を超えるビデオが含まれており、2D座標、深さ、視認性の損失を組み合わせた損失関数が含まれています。
ベンチマークでは、Deltaはそれぞれ長距離2D追跡と集中的な3D追跡でCVOとKubric3Dで最高のスコアを獲得し、タスクは他の方法よりもはるかに速く完了しました。対数深度表現、空間的注意、注意ベースのアップサンプラーなどのデルタの設計の選択により、さまざまな追跡シナリオの精度と効率を大幅に向上させます。
Deltaは、ビデオフレームで各ピクセルを追跡できる効率的な方法であり、密なDと3D追跡での精度とランタイムが高速化することができます。この方法は、長い間ブロックされているポイントでの課題に直面する可能性があり、数百フレーム以下の短いビデオで最高のパフォーマンスがあります。デルタの3D追跡精度は、使用される単眼深度推定の精度と時間領域の安定性に依存します。単眼深度推定における研究の進捗状況は、この方法のパフォーマンスをさらに向上させると予想されます。
プロジェクトの入り口:https://snap-research.github.io/delta/
キーポイント:
デルタは、シングルレンズビデオのすべてのピクセルを効率的に追跡するように設計されたまったく新しいアプローチです。
Deltaは、従来の方法よりも8倍高速でCVOおよびKubric3Dデータセットで主要な結果を達成しています。
この方法は、長期的な閉塞ポイントで困難な場合がありますが、短いビデオでは優れたパフォーマンスがあります。
要約すると、Deltaメソッドは、シングルレンズビデオの3次元モーショントラッキングでブレークスルーの進歩を遂げており、その効率と高精度は将来のビデオ処理アプリケーションの新しい可能性を提供します。しかし、このアプローチは、より複雑で長いビデオシナリオに対処するために、さらに洗練される必要があります。