في مجال رؤية الكمبيوتر ، كانت إعادة بناء ثلاثية الأبعاد متعددة العرض مهمة صعبة دائمًا ، خاصة في السيناريوهات التي تكون فيها الدقة العالية وقابلية التوسع مطلوبة. الأساليب التقليدية مثل Dust3R تعتمد معالجة الزوج. على الرغم من أنه يمكن تحقيق إعادة الإعمار إلى حد ما ، فإن برنامج المحاذاة العالمي المعقد الخاص به لا يستغرق وقتًا طويلاً فحسب ، بل يزيد أيضًا من عبء الحوسبة. لحل هذه المشكلة ، اقترح فريق البحث Fast3R ، وهي تقنية إعادة إعمار مبتكرة متعددة المنظورات يمكنها معالجة ما يصل إلى 1500 صورة في انتشار واحد إلى الأمام ، مما يؤدي إلى تحسين كفاءة إعادة الإعمار بشكل كبير.

يكمن جوهر Fast3R في بنية المحولات القائمة على المحولات ، والذي يمكنه معالجة معلومات العرض المتعددة بالتوازي ، وبالتالي تجنب عملية المحاذاة التكرارية الشاقة في الطرق التقليدية. من خلال التحقق التجريبي الشامل ، كان أداء Fast3R جيدًا في تقديرات تشكل الكاميرا ومهام إعادة الإعمار ثلاثية الأبعاد ، ليس فقط تحسين سرعة الاستدلال ، ولكن أيضًا تقليل تراكم الأخطاء ، مما يجعلها بديلاً فعالاً في تطبيقات العرض المتعدد.

أثناء تنفيذ Fast3R ، اعتمد فريق البحث سلسلة من تقنيات التدريب والاستدلال النطاق المتقدمة على نطاق واسع لضمان قدرات المعالجة الفعالة والقابلة للتطوير. وتشمل هذه التقنيات flashattention2.0 لحسابات الانتباه الموفرة للذاكرة ؛ Deepspeed Zero-2 للتدريب الموزع المحسّن ؛ الاستيفاء المضمّن من الموقف لسهولة التدريب على المدى القصير والاختبار طويل الأجل ؛ والتوازي الموتر لتسريع الاستدلال متعدد GPU.
من حيث كفاءة الحوسبة ، يعمل Fast3R بشكل جيد بشكل خاص على وحدة معالجة الرسومات A100 واحدة ، مع ميزة كبيرة على Dust3R. على سبيل المثال ، عند معالجة 32 صورة بدقة 512 × 384 ، يستغرق Fast3R فقط 0.509 ثانية ، بينما يستغرق Dust3R 129 ثانية ، وعند معالجة 48 صورة ، يواجه تدفق الذاكرة. لا يؤدي Fast3R إلى أداء استهلاك الذاكرة بشكل ممتاز في الوقت المناسب فحسب ، بل يظهر أيضًا قابلية للتوسع في النموذج ومقياس البيانات ، مما يشير إلى آفاق التطبيق الواسعة في إعادة بناء ثلاثية الأبعاد على نطاق واسع.
مدخل المشروع: https://fast3r-3d.github.io/
النقاط الرئيسية:
يمكن لتكنولوجيا Fast3R معالجة ما يصل إلى 1500 صورة في انتشار إلى الأمام ، مما يؤدي إلى تحسين سرعة إعادة الإعمار ثلاثي الأبعاد.
تدعم بنية محول Fast3R المعالجة المتوازية ، مما يلغي عملية المحاذاة المعقدة للطرق التقليدية.
بالمقارنة مع Dust3R ، يظهر Fast3R مزايا كبيرة في استخدام الوقت والذاكرة وهو مناسب لتطبيقات إعادة الإعمار ثلاثية الأبعاد على نطاق واسع.