본 논문에서는 단일 뷰 비디오에서 고품질 애니메이션 개체를 효율적으로 생성할 수 있는 L4GM이라는 대규모 4D 가우스 재구성 모델을 소개합니다. 다시점 영상이 포함된 대규모 데이터 세트를 학습하고 단방향 전송 시 단 1초라는 빠른 처리 속도를 달성하도록 혁신적으로 설계되었습니다. L4GM의 장점은 긴 동영상과 높은 프레임 속도의 동영상을 재구성할 수 있으며, 4D 보간을 지원하여 비디오 프레임 속도를 크게 높일 수 있다는 것입니다. 또한 모델의 일반화 능력도 좋아 실제 현장 영상에서도 만족스러운 결과를 얻을 수 있다.
최근 연구팀은 단일 뷰 비디오 입력에서 애니메이션 개체를 생성하고 인상적인 결과를 얻을 수 있는 L4GM이라는 대규모 4D 가우스 재구성 모델을 제안했습니다.
이 모델의 핵심은 단 1초 만에 단방향 전송을 완료하는 동시에 출력 애니메이션 개체의 고품질을 보장하는 혁신적인 데이터 세트와 단순화된 디자인입니다.
비디오를 4D 합성으로
L4GM은 몇 초 안에 비디오에서 4D 개체를 생성할 수 있습니다. 다음 비디오 예에서는 원본 비디오의 대상 개체와 해당 생성된 4D 가우스 재구성 모델을 볼 수 있습니다.
길고 높은 FPS, 유연한 비디오 재구성
그리고 10초 길이의 30fps 비디오를 재구성합니다. 다음 영상의 예를 들어,
4D 보간
또한 팀은 프레임 속도를 3배 높이기 위해 4D 보간 모델을 훈련했습니다. 다음 영상의 예를 들어,
왼쪽: 보간 전. 오른쪽: 보간 후
원근감 있는 비디오 데이터 세트 구축
연구팀은 Objaverse에서 세심하게 제작되고 렌더링된 애니메이션 개체가 포함된 다중 뷰 비디오가 포함된 데이터 세트를 구축했습니다. 이 데이터 세트는 48개 시점에서 110,000개의 애니메이션을 포괄하는 44,000개의 다양한 개체를 표시하여 총 3억 프레임의 총 1억 2천만 개의 비디오를 생성합니다. 이 데이터 세트를 기반으로 L4GM은 다중 뷰 이미지 입력에서 3D 가우스 타원체를 출력하는 이미 사전 훈련된 3D 대규모 재구성 모델 LGM을 기반으로 직접 구축되었습니다.
L4GM은 낮은 fps로 샘플링된 비디오 프레임에서 각 프레임의 3D 가우스 스플래시 표현을 생성한 다음 표현을 더 높은 fps로 업샘플링하여 시간적 매끄러움을 달성합니다.
연구팀은 모델이 시간적 일관성을 학습할 수 있도록 기본 LGM에 시간적 Self-Attention 레이어를 추가하고 각 시간 단계마다 멀티뷰 렌더링 손실을 사용하여 모델을 훈련했습니다. 보간 모델을 훈련함으로써 이 표현은 더 높은 프레임 속도로 업샘플링되어 중간 3D 가우스 표현이 생성됩니다.
연구팀은 합성 데이터에 대한 훈련을 거쳐 고품질 애니메이션 3D 개체를 생성한 후 야생 비디오에서 L4GM의 우수한 일반화 능력을 입증했습니다. 이 모델은 단일 뷰 비디오와 단일 시간 단계 다중 뷰 이미지를 입력으로 받아들이고 4D 가우스 확률 분포 세트를 출력합니다.
기술 프레임워크

이 모델은 단일 뷰 비디오와 단일 시간 단계 다중 뷰 이미지를 입력으로 사용하고 4D 가우시안 세트를 출력합니다. U-Net 아키텍처를 채택하고 교차 뷰 셀프 어텐션을 사용하여 뷰 일관성을 달성하며 시간 대 공간 셀프 어텐션을 사용하여 시간적 일관성을 달성합니다.

L4GM은 마지막 가우스의 다중 뷰 렌더링을 다음 재구성의 입력으로 사용하여 자동 회귀 재구성을 허용합니다. 두 개의 연속 재구성 사이에는 하나의 중첩 프레임이 있습니다. 또한 연구팀은 4D 보간 모델도 훈련했습니다. 보간 모델은 재구성 결과로부터 렌더링된 보간된 다시점 영상을 입력받아 보간된 가우시안을 출력합니다.
L4GM 적용 가능한 시나리오는 다음과 같습니다.
비디오 콘텐츠 생성: L4GM은 단일 뷰 비디오 입력에서 애니메이션 개체의 4D 모델을 생성할 수 있으며, 이는 비디오 특수 효과 제작, 게임 개발 및 기타 분야에서 폭넓게 적용됩니다. 예를 들어 특수 효과 애니메이션 생성, 가상 장면 구축 등에 사용할 수 있습니다.
비디오 재구성 및 복구: L4GM은 장기간의 높은 프레임 속도 비디오를 재구성할 수 있으며 비디오 복구 및 복원에 사용되어 비디오 품질과 선명도를 향상시킬 수 있습니다. 이는 필름 복원, 비디오 압축 및 비디오 처리에 유용할 수 있습니다.
비디오 보간: 훈련된 4D 보간 모델을 통해 L4GM은 비디오의 프레임 속도를 높이고 비디오를 더 부드럽게 만들 수 있습니다. 이는 비디오 편집, 슬로우 모션/빠른 모션 효과 제작 등에 잠재적으로 응용될 수 있습니다.
3D 자산 생성: L4GM은 고품질 애니메이션 3D 자산을 생성할 수 있으며 이는 가상 현실(VR), 증강 현실(AR) 애플리케이션 및 게임 개발에서 3D 모델 생성에 매우 유용합니다.
제품 입구: https://top.aibase.com/tool/l4gm
전체적으로 L4GM 모델은 4D 가우스 재구성 분야에서 상당한 진전을 이루었으며, 고효율, 고품질 출력, 폭넓은 적용 가능성 등을 통해 큰 의미를 지닌 연구 결과가 되었습니다. 이 모델의 출현은 비디오 처리 및 3D 자산 생성과 같은 영역의 발전을 크게 촉진할 것입니다.