No campo da visão computacional, a reconstrução 3D de várias visualizações sempre foi uma tarefa desafiadora, especialmente em cenários em que é necessária alta precisão e escalabilidade. Métodos tradicionais, como o Dust3R, adotam o processamento em pares. Embora a reconstrução possa ser alcançada até certo ponto, seu complexo programa de alinhamento global não é apenas demorado, mas também aumenta a carga de computação. Para resolver esse problema, a equipe de pesquisa propôs o Fast3R, uma inovadora tecnologia de reconstrução com várias perspectivas que pode processar até 1.500 imagens em uma única propagação avagar, melhorando significativamente a eficiência da reconstrução.

O núcleo do Fast3R reside em sua arquitetura baseada em transformadores, que pode processar várias informações de exibição em paralelo, evitando assim o tedioso processo de alinhamento iterativo nos métodos tradicionais. Através de uma extensa verificação experimental, o Fast3R teve um bom desempenho na estimativa de pose da câmera e nas tarefas de reconstrução 3D, não apenas melhorando bastante a velocidade de inferência, mas também reduzindo o acúmulo de erros, tornando-o uma alternativa eficiente em aplicações de várias visualizações.

Durante a implementação do Fast3R, a equipe de pesquisa adotou uma série de técnicas avançadas de treinamento e inferência de modelos em larga escala para garantir suas capacidades de processamento eficientes e escaláveis. Essas tecnologias incluem flashattion2.0 para cálculos de atenção eficiente em memória; DeepSpeed Zero-2 para treinamento distribuído otimizado; Interpolação incorporada à posição para fáceis de treinamento de curto prazo e testes de longo prazo; e paralelismo tensorado para acelerar a inferência multi-GPU.
Em termos de eficiência da computação, o Fast3R tem um desempenho particularmente bom em uma única GPU A100, com uma vantagem significativa sobre o Dust3R. Por exemplo, ao processar 32 imagens com uma resolução de 512 × 384, o Fast3R leva apenas 0,509 segundos, enquanto o Dust3R leva 129 segundos e, ao processar 48 imagens, ele enfrenta o excesso de memória. O Fast3R não apenas tem desempenho excelentemente no consumo de tempo e memória, mas também mostra boa escalabilidade na escala de modelo e dados, indicando suas amplas perspectivas de aplicação na reconstrução 3D em larga escala.
Entrada do projeto: https://fast3r-3d.github.io/
Pontos -chave:
A tecnologia FAST3R pode processar até 1.500 imagens em uma propagação a termo, melhorando bastante a velocidade da reconstrução 3D.
A arquitetura de transformadores da Fast3R suporta processamento paralelo, eliminando o complexo processo de alinhamento dos métodos tradicionais.
Comparado com o Dust3R, o Fast3R mostra vantagens significativas no uso do tempo e da memória e é adequado para aplicações de reconstrução 3D em larga escala.