コンピュータービジョンの分野では、特に高精度とスケーラビリティが必要なシナリオでは、マルチビュー3D再構成は常に困難なタスクでした。 Dust3Rなどの従来の方法は、ペアワイズ処理を採用しています。再構築はある程度達成できますが、その複雑なグローバルアライメントプログラムは時間がかかるだけでなく、コンピューティングの負担を増加させます。この問題を解決するために、研究チームはFAST3Rを提案しました。Fast3Rは、単一の前方伝播で最大1,500個の画像を処理できる革新的な多環境再構成技術であり、再構築効率を大幅に改善しました。

Fast3Rのコアは、変圧器ベースのアーキテクチャにあり、複数のビュー情報を並行して処理できるため、従来の方法での退屈な反復アライメントプロセスを回避できます。広範な実験検証を通じて、Fast3Rはカメラポーズ推定と3D再構成タスクでうまく機能し、推論速度を大幅に改善するだけでなく、エラーの蓄積を減らし、マルチビューアプリケーションの効率的な代替手段となりました。

FAST3Rの実装中に、研究チームは、その効率的でスケーラブルな処理機能を確保するために、一連の高度な大規模モデルトレーニングと推論手法を採用しました。これらのテクノロジーには、メモリ効率の高い注意計算のためのFlashattention2.0が含まれます。最適化された分散トレーニング用のDeepspeed Zero-2。容易な短期トレーニングと長期テストのための位置埋め込まれた補間。マルチGPU推論を加速するためのテンソル並列性。
コンピューティング効率に関しては、FAST3Rは単一のA100 GPUで特にうまく機能し、Dust3Rよりも大きな利点があります。たとえば、512×384の解像度で32枚の画像を処理する場合、Fast3Rには0.509秒しかかかりませんが、Dust3Rには129秒かかり、48枚の画像を処理すると、メモリオーバーフローに直面します。 FAST3Rは、時間とメモリの消費に優れたパフォーマンスを発揮するだけでなく、モデルとデータスケールで優れたスケーラビリティを示し、大規模な3D再構成における幅広いアプリケーションの見通しを示しています。
プロジェクトの入り口:https://fast3r-3d.github.io/
キーポイント:
FAST3Rテクノロジーは、前方の伝播で最大1,500個の画像を処理し、3D再構成の速度を大幅に改善できます。
Fast3Rのトランスアーキテクチャは、並列処理をサポートし、従来の方法の複雑なアライメントプロセスを排除します。
Dust3Rと比較して、Fast3Rは時間とメモリの使用量に大きな利点を示し、大規模な3D再構成アプリケーションに適しています。