Apple の AI 研究チームは、速度と精度において大幅な進歩を遂げた新しい深度推定モデル Depth Pro を発表しました。このモデルは、カメラのメタデータを必要とせずに、単一の 2D 画像から高解像度の 3D 深度マップを 0.3 秒で生成でき、髪の毛や植生などの細部をキャプチャすることができ、拡張現実や自動運転などの分野に革新をもたらします。 Downcodes の編集者が、Depth Pro の強力な機能とその背後にある技術原理を詳しく説明します。
最近、Apple の AI 研究チームは、Depth Pro と呼ばれる新しいモデルをリリースしました。これは、深度推定の分野における大きな進歩です。このモデルは、単一の 2D 画像から高解像度の 3D 深度マップを迅速に生成できますが、驚くべきことに、そうではありません。カメラのメタデータが必要ですが、これは以前のテクノロジーではほとんどありませんでした。

Depth Pro は非常に高速に動作し、わずか 0.3 秒で深度マップを生成します。このモデルは、他の方法では見逃しがちな髪の毛や植生などの微細なディテールもキャプチャし、優れた鮮明度で 2.25MP マップを作成できます。これは、詳細な 3D シーンをリアルタイムで取得できることを意味し、多くの業界にとって恩恵となります。
たとえば、拡張現実 (AR) アプリケーションでは、仮想オブジェクトを現実の環境とより正確に統合して、ユーザー エクスペリエンスを向上させることができます。自動運転技術では、車両が周囲の環境をより正確に認識し、運転の安全性も向上します。

このテクノロジーの背後には、効率的なマルチスケール ビジュアル トランスフォーマー アーキテクチャがあります。研究者らは、このアーキテクチャにより画像の全体的な情報と詳細を同時に処理できるため、Depth Proの精度と速度が大幅に向上すると述べた。他のモデルと比較して、Depth Pro は細部のキャプチャに特に優れており、動物の毛や植物の質感を明確にレンダリングし、優れた視覚効果をもたらします。
さらに注目に値するのは、Depth Pro は「絶対的な深さ」の推定値を提供できることです。つまり、オブジェクトの相対位置だけでなく、実際の距離も知ることができます。
これは、多くのアプリケーション シナリオ、特に高精度が必要な仮想現実エクスペリエンスにとって重要です。さらに、Depth Pro は「ゼロショット学習」アプローチを採用しており、特定のデータセットがなくても正確な深度予測を行うことができるため、さまざまな画像に広く使用できます。

このテクノロジーの魅力をより多くの人に体験してもらうために、Apple は Depth Pro をオープンソース化することにしました。研究チームは、開発者や研究者が探索と革新を行えるよう、関連するコードと事前トレーニング済みモデルの重みを GitHub で公開しました。これにより、ロボット工学や医療などの複数の分野でのDepth Proの迅速な応用と開発が促進されることは間違いありません。
Proの発売により、AppleはAI分野における技術革新における強みを改めて証明した。この新しいモデルは、環境を認識する機械の能力を向上させるだけでなく、複数の業界に変化をもたらすことが期待されています。
プロジェクトの入り口: https://github.com/apple/ml- Depth-pro
ハイライト:
** 効率的な深度推定 **: Depth Pro は、高解像度の 3D 深度マップを 0.3 秒で生成でき、これは非常に高速です。
**絶対深度機能**: 相対位置を提供するだけでなく、実際の距離も正確に提供できるため、さまざまなアプリケーション シナリオに適しています。
** オープンソース共有 **: Apple は、開発者がさまざまな分野でそのアプリケーションの可能性を探求することを奨励するために、Depth Pro をオープンソースにしています。
Depth Pro のオープンソースは、深度推定技術の開発を大きく促進し、AR や自動運転などの分野でブレークスルーをもたらすことが期待されています。 私たちは、より多くの開発者が Depth Pro に基づいた革新的なアプリケーションを開発することを期待しています。ダウンコード編集部では今後もこのモデルの今後の展開に注目していきたいと思います。