단일 렌즈 비디오에서 3D 모션의 효율적인 추적은 컴퓨터 비전 분야에서 항상 어려운 문제였습니다. 특히 긴 시퀀스 비디오를 다루고 픽셀 수준의 정확도를 추구 할 때는 항상 어려운 문제였습니다. 전통적인 방법은 컴퓨팅 리소스 및 알고리즘 복잡성으로 제한되므로 전체 장면과 집중적 인 3 차원 모션 추적에 대한 자세한 이해를 얻기가 어렵습니다. 이 기사는 델타 (Delta)라는 새로운 접근법을 소개 할 것이며, 이는이 퍼즐을 효율적으로 해결하고 중요한 결과를 얻는 것을 목표로합니다.
비디오 처리 분야에서, 특히 긴 시퀀스의 픽셀 수준의 정확한 추적이 필요할 때 단일 렌즈 비디오에서 3 차원 동작을 효율적으로 추적하는 것은 어려운 문제였습니다. 전통적인 방법은 여러 가지 과제에 직면하며 종종 소수의 핵심 요점 만 추적하며 전체 시나리오에 대한 자세한 이해를 얻을 수는 없습니다.

또한, 선행 기술의 컴퓨팅 요구는 높기 때문에 긴 비디오를 처리 할 때 효율성을 유지하기가 어렵습니다. 동시에, 장기 추적은 카메라 이동 및 물체 폐색과 같은 문제의 영향을 받기 때문에 오류 또는 오류를 추적합니다.
현재 비디오 시퀀스 모션 추정 방법에는 고유 한 장점과 단점이 있습니다. 광학 흐름 기술은 집중 픽셀 추적을 제공하지만, 특히 긴 시퀀스를 다룰 때 복잡한 시나리오에서 불충분 한 인성을 나타냅니다.
시나리오 흐름은 광학 흐름의 확장으로, RGB-D 데이터 또는 포인트 구름을 통해 조밀 한 3 차원 운동을 추정하지만 긴 시퀀스로 효율적으로 적용하기는 여전히 어렵다. 포인트 추적 방법은 모션 궤적을 캡처하고 공간적 및 시간적주의를 결합하여 더 부드러운 추적을 달성 할 수 있지만, 높은 계산 비용으로 인해 집중적 인 모니터링을 달성하기가 여전히 어렵습니다. 또한 재구성 기반 추적 방법은 변형 필드를 사용하여 동작을 추정하지만 실시간 응용 분야에서는 실용적이지 않습니다.

최근 매사추세츠 대학교 Amherst, MIT-IBM Watson 인공 지능 실험실 및 Snap Inc.의 연구팀은 각각의 효율적인 추적을 위해 설계된 추적 유형 인 Delta (모든 비디오에 대한 밀도가 높은 장기 3D 추적)를 제안했습니다 3 차원 공간의 픽셀. 델타는 저해상도 추적으로 시작하여 시공간주의 메커니즘을 채택하며 고해상도 정확도에주의 기반 업 샘플러를 적용합니다. 주요 혁신에는 명확한 모션 경계를위한 업 샘플러, 효율적인 공간주의 아키텍처 및 향상된 추적 성능의 로그 디스 표현이 포함됩니다.
Delta는 CVO 및 Kubric3D 데이터 세트에서 고급 결과를 달성하여 평균 JACCARD (AJ) 및 3D 평균 위치 차이 (APD3D)와 같은 지표에서 10% 이상을 개선했으며 Tap-VID3D 및 LSFodyssey와 같은 3D 포인트 추적 벤치 마크에서도 개선되었습니다. 뛰어난. 기존 방법과 달리 델타는 스케일에서 집중적 인 3 차원 추적을 구현하며, 업계 최고의 정확도를 유지하면서 이전 방법보다 8 배 이상 빠르게 실행됩니다.
실험에 따르면 델타는 3 차원 추적 작업에서 뛰어난 성능을 발휘하며 속도와 정확도는 이전 방법을 초과합니다. 델타는 큐브릭 데이터 세트에서 교육을 받고 5600 개가 넘는 비디오가 포함되어 있으며 2D 좌표, 깊이 및 가시성 손실을 결합한 손실 기능이 포함되어 있습니다.
벤치 마크에서 Delta는 각각 장거리 2D 추적 및 집중 3D 추적에서 CVO 및 Kubric3D에서 가장 높은 점수를 얻었으며 작업은 다른 방법보다 훨씬 빠르게 완료되었습니다. 로그 깊이 표현, 공간주의 및주의 기반 업 샘플러와 같은 델타의 설계 선택은 다양한 추적 시나리오에서 정확도와 효율성을 크게 향상시킵니다.
델타는 비디오 프레임에서 각 픽셀을 추적하여 밀도가 높은 D 및 3D 추적에서 정확도와 빠른 런타임을 달성 할 수있는 효율적인 방법입니다. 이 방법은 오랫동안 차단 된 지점에서 도전에 직면 할 수 있으며, 수백 프레임 이상의 짧은 비디오에서 최고의 성능을 발휘할 수 있습니다. 델타의 3D 추적 정확도는 사용 된 단안 깊이 추정의 정확도 및 시간 도메인 안정성에 따라 다릅니다. 단안 깊이 추정의 연구 진행은이 방법의 성능을 더욱 향상시킬 것으로 예상됩니다.
프로젝트 입구 : https://snap-research.github.io/delta/
핵심 사항 :
델타는 단일 렌즈 비디오에서 모든 픽셀을 효율적으로 추적하도록 설계된 완전히 새로운 접근법입니다.
델타는 기존 방법보다 8 배 빠르게 CVO 및 Kubric3D 데이터 세트에 대한 주요 결과를 달성합니다.
이 방법은 장기 폐색 지점에서 어려울 수 있지만 짧은 비디오에서는 훌륭하게 수행됩니다.
요약하면, 델타 방법은 단일 렌즈 비디오의 3 차원 모션 추적에서 획기적인 발전을 이루었으며, 효율성과 높은 정확도는 향후 비디오 처리 애플리케이션에 새로운 가능성을 제공합니다. 그러나이 접근법은 여전히 더 복잡하고 더 긴 비디오 시나리오를 다루기 위해 더 개선되어야합니다.