Di bidang visi komputer, rekonstruksi 3D multi-view selalu menjadi tugas yang menantang, terutama dalam skenario di mana presisi dan skalabilitas tinggi diperlukan. Metode tradisional seperti Dust3r mengadopsi pemrosesan berpasangan. Meskipun rekonstruksi dapat dicapai sampai batas tertentu, program penyelarasan globalnya yang kompleks tidak hanya memakan waktu, tetapi juga meningkatkan beban komputasi. Untuk mengatasi masalah ini, tim peneliti mengusulkan FETR3R, teknologi rekonstruksi multi-perspektif yang inovatif yang dapat memproses hingga 1.500 gambar dalam propagasi maju tunggal, secara signifikan meningkatkan efisiensi rekonstruksi.

Inti dari Fast3R terletak pada arsitektur berbasis transformatornya, yang dapat memproses beberapa informasi tampilan secara paralel, sehingga menghindari proses penyelarasan iteratif yang membosankan dalam metode tradisional. Melalui verifikasi eksperimental yang luas, Fast3R berkinerja baik dalam estimasi pose kamera dan tugas rekonstruksi 3D, tidak hanya sangat meningkatkan kecepatan inferensi, tetapi juga mengurangi akumulasi kesalahan, menjadikannya alternatif yang efisien dalam aplikasi multi-view.

Selama implementasi Fast3R, tim peneliti mengadopsi serangkaian pelatihan model skala besar dan teknik inferensi untuk memastikan kemampuan pemrosesan yang efisien dan dapat diskalakan. Teknologi ini termasuk flashattention2.0 untuk perhitungan perhatian hemat memori; Deep-kecepatan nol-2 untuk pelatihan terdistribusi yang dioptimalkan; interpolasi yang ditanamkan posisi untuk pelatihan jangka pendek yang mudah dan pengujian jangka panjang; dan paralelisme tensor untuk mempercepat inferensi multi-GPU.
Dalam hal efisiensi komputasi, Fast3R berkinerja sangat baik pada GPU A100 tunggal, dengan keunggulan yang signifikan dibandingkan Dust3R. Misalnya, saat memproses 32 gambar dengan resolusi 512 × 384, Fast3R hanya membutuhkan 0,509 detik, sementara Dust3R membutuhkan waktu 129 detik, dan ketika memproses 48 gambar, itu menghadapi memori overflow. Fast3R tidak hanya berkinerja sangat baik dalam konsumsi waktu dan memori, tetapi juga menunjukkan skalabilitas yang baik dalam model dan skala data, menunjukkan prospek aplikasi yang luas dalam rekonstruksi 3D skala besar.
Pintu Masuk Proyek: https://fast3r-3d.github.io/
Poin -Poin Kunci:
Teknologi Fast3R dapat memproses hingga 1.500 gambar dalam perambatan maju, sangat meningkatkan kecepatan rekonstruksi 3D.
Arsitektur Transformer Fast3R mendukung pemrosesan paralel, menghilangkan proses penyelarasan yang kompleks dari metode tradisional.
Dibandingkan dengan DUST3R, FAST3R menunjukkan keunggulan yang signifikan dalam penggunaan waktu dan memori dan cocok untuk aplikasi rekonstruksi 3D skala besar.