Im Bereich Computer Vision war die 3D-Rekonstruktion von Multi-Views schon immer eine herausfordernde Aufgabe, insbesondere in Szenarien, in denen hohe Präzision und Skalierbarkeit erforderlich sind. Traditionelle Methoden wie Dust3r verwenden eine paarweise Verarbeitung. Obwohl die Rekonstruktion in gewissem Maße erreicht werden kann, ist sein komplexes globales Ausrichtungsprogramm nicht nur zeitaufwändig, sondern auch die Rechenlast erhöht. Um dieses Problem zu lösen, schlug das Forschungsteam Fast3r vor, eine innovative multi-Perspektive-Rekonstruktionstechnologie, mit der bis zu 1.500 Bilder in einer einzelnen Vorwärtsverbreitung verarbeitet werden können, wodurch die Rekonstruktionseffizienz erheblich verbessert wird.

Der Kern von FAST3R liegt in seiner transformator-basierten Architektur, mit der mehrere Ansichtsinformationen parallel verarbeitet werden können und so den mühsamen iterativen Ausrichtungsprozess bei herkömmlichen Methoden vermeiden können. Durch umfangreiche experimentelle Überprüfung hat Fast3r bei der Kamera-Pose-Schätzung und der 3D-Rekonstruktionsaufbauaufgaben eine gute Leistung abgeschlossen, was nicht nur die Inferenzgeschwindigkeit erheblich verbesserte, sondern auch die Fehlerakkumulation verringert, was sie zu einer effizienten Alternative in Multi-View-Anwendungen macht.

Während der Implementierung von FAST3R nahm das Forschungsteam eine Reihe fortschrittlicher groß angelegter Modelltrainings- und Inferenztechniken ein, um seine effizienten und skalierbaren Verarbeitungsfunktionen sicherzustellen. Diese Technologien umfassen Flashattention2.0 für speichereffiziente Aufmerksamkeitsberechnungen; DeepSpeed Zero-2 für optimiertes verteiltes Training; Positionseinbettete Interpolation für einfache kurzfristige Schulungen und langfristige Tests; und Tensor-Parallelität zur Beschleunigung von Multi-GPU-Inferenz.
In Bezug auf die Recheneffizienz spielt der FAST3R besonders gut bei einer einzigen A100 -GPU, mit einem erheblichen Vorteil gegenüber dem Dust3R. Wenn beispielsweise 32 Bilder mit einer Auflösung von 512 × 384 verarbeitet werden, dauert Fast3r nur 0,509 Sekunden, während Dust3r 129 Sekunden dauert und bei der Verarbeitung von 48 Bildern den Speicherüberlauf ausgesetzt ist. FAST3R tritt nicht nur zeitlich und Speicherkonsum hervorragend durch, sondern zeigt auch eine gute Skalierbarkeit in der Modell- und Datenskala, was auf seine breiten Anwendungsaussichten in der 3D-Rekonstruktion in großem Maßstab zeigt.
Projekteingang: https://fast3r-3d.github.io/
Schlüsselpunkte:
Die Fast3R -Technologie kann bis zu 1.500 Bilder in einer Vorwärtsverbreitung verarbeiten und die Geschwindigkeit der 3D -Rekonstruktion erheblich verbessern.
Die Transformatorarchitektur von Fast3r unterstützt die parallele Verarbeitung und beseitigt den komplexen Ausrichtungsprozess herkömmlicher Methoden.
Im Vergleich zu Dust3R zeigt Fast3r signifikante Vorteile in Zeit- und Speicherverbrauch und eignet sich für groß angelegte 3D-Rekonstruktionsanwendungen.