En el campo de la visión por computadora, la reconstrucción 3D de visión múltiple siempre ha sido una tarea desafiante, especialmente en escenarios en los que se requieren alta precisión y escalabilidad. Los métodos tradicionales como DUST3R adoptan el procesamiento por pares. Aunque la reconstrucción se puede lograr hasta cierto punto, su complejo programa de alineación global no solo lleva mucho tiempo, sino que también aumenta la carga informática. Para resolver este problema, el equipo de investigación propuso FAST3R, una innovadora tecnología de reconstrucción multiperspectiva que puede procesar hasta 1,500 imágenes en una sola propagación hacia adelante, mejorando significativamente la eficiencia de la reconstrucción.

El núcleo de FAST3R se encuentra en su arquitectura basada en transformadores, que puede procesar información múltiple en paralelo, evitando así el tedioso proceso de alineación iterativa en los métodos tradicionales. A través de una amplia verificación experimental, FAST3R funcionó bien en las tareas de estimación de pose de la cámara y de reconstrucción 3D, no solo mejora en gran medida la velocidad de inferencia, sino que también reduce la acumulación de errores, lo que lo convierte en una alternativa eficiente en aplicaciones múltiples.

Durante la implementación de FAST3R, el equipo de investigación adoptó una serie de técnicas avanzadas de entrenamiento de modelos a gran escala e inferencia para garantizar sus capacidades de procesamiento eficientes y escalables. Estas tecnologías incluyen flashattention2.0 para los cálculos de atención de la memoria; Deepspeed cero-2 para capacitación distribuida optimizada; Interpolación incrustada para la posición para una fácil capacitación a corto plazo y pruebas a largo plazo; y paralelismo del tensor para acelerar la inferencia multi-GPU.
En términos de eficiencia informática, el FAST3R funciona particularmente bien en una sola GPU A100, con una ventaja significativa sobre el DUST3R. Por ejemplo, al procesar 32 imágenes con una resolución de 512 × 384, FAST3R solo toma 0.509 segundos, mientras que DUST3R toma 129 segundos y al procesar 48 imágenes, se enfrenta al desbordamiento de la memoria. FAST3R no solo funciona excelentemente en el consumo de tiempo y memoria, sino que también muestra una buena escalabilidad en el modelo y la escala de datos, lo que indica sus amplias perspectivas de aplicación en la reconstrucción 3D a gran escala.
Entrada del proyecto: https://fast3r-3d.github.io/
Puntos clave:
La tecnología FAST3R puede procesar hasta 1,500 imágenes en una propagación hacia adelante, mejorando en gran medida la velocidad de la reconstrucción 3D.
La arquitectura del transformador de Fast3r admite el procesamiento paralelo, eliminando el complejo proceso de alineación de los métodos tradicionales.
En comparación con DUST3R, FAST3R muestra ventajas significativas en el uso del tiempo y la memoria y es adecuado para aplicaciones de reconstrucción 3D a gran escala.