컴퓨터 비전 분야에서 멀티 뷰 3D 재구성은 항상 높은 정밀성과 확장 성이 필요한 시나리오에서 항상 어려운 작업이었습니다. Dust3R과 같은 전통적인 방법은 쌍별 처리를 채택합니다. 재구성을 어느 정도 달성 할 수 있지만, 복잡한 글로벌 정렬 프로그램은 시간이 소요될뿐만 아니라 컴퓨팅 부담을 증가시킵니다. 이 문제를 해결하기 위해 연구팀은 단일 전진 전파에서 최대 1,500 개의 이미지를 처리 할 수있는 혁신적인 다중 지연 재구성 기술 인 FAST3R을 제안하여 재건 효율성을 크게 향상시켰다.

FAST3R의 핵심은 변압기 기반 아키텍처에 있으며 여러 뷰 정보를 병렬로 처리 할 수 있으므로 전통적인 방법으로 지루한 반복 정렬 프로세스를 피할 수 있습니다. 광범위한 실험 검증을 통해 FAST3R은 카메라 포즈 추정 및 3D 재구성 작업에서 잘 수행되어 추론 속도를 크게 향상시킬뿐만 아니라 오류 축적을 줄여 다중 뷰 응용 프로그램에서 효율적인 대안이됩니다.

FAST3R을 구현하는 동안 연구팀은 효율적이고 확장 가능한 처리 기능을 보장하기 위해 일련의 고급 대규모 모델 교육 및 추론 기술을 채택했습니다. 이러한 기술에는 메모리 효율적인주의 계산을위한 FlashAttention2.0이 포함됩니다. 최적화 된 분산 교육을위한 DeepSpeed 0-2; 간단한 단기 훈련 및 장기 테스트를위한 위치에 침전 된 보간; 다중 GPU 추론을 가속화하기위한 텐서 병렬 처리.
컴퓨팅 효율 측면에서 FAST3R은 특히 단일 A100 GPU에서 잘 수행되며 Dust3R에 비해 상당한 이점이 있습니다. 예를 들어, 해상도가 512 × 384 인 32 개의 이미지를 처리 할 때 FAST3R은 0.509 초만 걸리는 반면 Dust3R은 129 초가 걸리고 48 개의 이미지를 처리 할 때 메모리 오버 플로우에 직면합니다. FAST3R은 시간과 메모리 소비에서 훌륭하게 수행 할뿐만 아니라 모델 및 데이터 척도에서 우수한 확장 성을 보여 주므로 대규모 3D 재구성에서 광범위한 응용 프로그램 전망을 나타냅니다.
프로젝트 입구 : https://fast3r-3d.github.io/
핵심 사항 :
FAST3R 기술은 전진 전파로 최대 1,500 개의 이미지를 처리하여 3D 재구성 속도를 크게 향상시킬 수 있습니다.
FAST3R의 변압기 아키텍처는 병렬 처리를 지원하여 전통적인 방법의 복잡한 정렬 프로세스를 제거합니다.
Dust3R과 비교하여 FAST3R은 시간 및 메모리 사용에서 중요한 이점을 보여 주며 대규모 3D 재구성 응용 프로그램에 적합합니다.