Dans le domaine de la vision par ordinateur, la reconstruction 3D multi-vues a toujours été une tâche difficile, en particulier dans les scénarios où une haute précision et une évolutivité sont nécessaires. Les méthodes traditionnelles telles que Dust3R adoptent un traitement par paire. Bien que la reconstruction puisse être réalisée dans une certaine mesure, son programme d'alignement mondial complexe est non seulement long, mais augmente également la charge informatique. Pour résoudre ce problème, l'équipe de recherche a proposé Fast3R, une technologie de reconstruction multi-perspective innovante qui peut traiter jusqu'à 1 500 images dans une seule propagation vers l'avant, améliorant considérablement l'efficacité de la reconstruction.

Le noyau de Fast3r réside dans son architecture basée sur le transformateur, qui peut traiter plusieurs informations de vue en parallèle, évitant ainsi le processus d'alignement itératif fastidieux dans les méthodes traditionnelles. Grâce à une vérification expérimentale approfondie, Fast3R a bien performé à l'estimation de la pose de caméra et des tâches de reconstruction 3D, non seulement améliorant considérablement la vitesse d'inférence, mais aussi réduisant l'accumulation d'erreurs, ce qui en fait une alternative efficace dans les applications multi-vues.

Au cours de la mise en œuvre de Fast3R, l'équipe de recherche a adopté une série de techniques avancées de formation et d'inférence à grande échelle pour assurer ses capacités de traitement efficaces et évolutives. Ces technologies incluent Flashattention2.0 pour les calculs d'attention économe en mémoire; Deeppeed Zero-2 pour une formation distribuée optimisée; Interpolation placée en position pour une formation facile à court terme et des tests à long terme; et le parallélisme du tenseur pour accélérer l'inférence multi-GPU.
En termes d'efficacité informatique, le Fast3R fonctionne particulièrement bien sur un seul GPU A100, avec un avantage significatif sur la poussière3R. Par exemple, lors du traitement de 32 images avec une résolution de 512 × 384, Fast3R ne prend que 0,509 seconde, tandis que Dust3R prend 129 secondes, et lors du traitement de 48 images, il fait face à un débordement de mémoire. Fast3R fonctionne non seulement parfaitement dans le temps et la consommation de mémoire, mais montre également une bonne évolutivité dans le modèle et l'échelle de données, indiquant ses larges prospects d'application dans la reconstruction 3D à grande échelle.
Entrée du projet: https://fast3r-3d.github.io/
Points clés:
La technologie Fast3R peut traiter jusqu'à 1 500 images dans une propagation vers l'avant, améliorant considérablement la vitesse de la reconstruction 3D.
L'architecture du transformateur de Fast3R prend en charge le traitement parallèle, éliminant le processus d'alignement complexe des méthodes traditionnelles.
Par rapport à Dust3R, Fast3R montre des avantages significatifs dans le temps et l'utilisation de la mémoire et convient aux applications de reconstruction 3D à grande échelle.