Meta는 사우디아라비아의 King Abdullah University of Science and Technology(KAUST)와 협력하여 MarDini라는 새로운 비디오 확산 모델 라인을 출시했습니다. 이 모델은 쉽고 효율적으로 고품질 영상을 제작할 수 있으며, 영상 프레임 채우기, 이미지를 영상으로 변환, 영상 확장 등 다양한 기능을 구현해 영상 제작 과정을 대폭 단순화한다. Downcodes의 편집자는 MarDini 모델의 특징과 장점은 물론 비디오 처리 분야에서의 획기적인 기여에 대해 자세히 설명합니다.
최근 Meta는 사우디아라비아의 King Abdullah University of Science and Technology(KAUST)와 제휴하여 새로운 비디오 확산 모델 라인인 MarDini를 출시했습니다. 이 모델을 사용하면 고품질 비디오를 더 쉽고 유연하게 만들 수 있으며, 비디오에서 누락된 프레임 채우기, 단일 사진을 역동적인 장면으로 변환, 자연스러운 연속 프레임 부분을 추가하여 짧은 클립 확장 등의 작업을 완료할 수 있습니다.

MarDini는 길이에 관계없이 기존 비디오를 조정하여 비디오를 확장할 수도 있습니다. 5프레임 참조 비디오에서 2초 확장을 생성하여 각 시퀀스에 12개의 새 프레임을 추가합니다.
MarDini는 첫 번째 프레임과 마지막 프레임을 조건 신호로 사용하여 중간 프레임을 생성하여 비디오 보간을 구현합니다. 이러한 경계 프레임이 동일하면 MarDini는 끊김 없이 반복되는 비디오를 만들 수 있습니다.
MarDini의 작동 방식은 매우 흥미롭습니다. 이는 효율적이고 진보된 비디오 생성 기술을 사용하며 주로 계획 모델과 생성 모델의 두 부분으로 구성됩니다. 첫째, 계획 모델은 MAR(Masked Autoregressive) 방법을 사용하여 저해상도 입력 프레임을 해석하고 생성해야 하는 프레임에 대한 안내 신호를 생성합니다. 그런 다음 경량 생성 모델은 확산 프로세스를 사용하여 고해상도 세부 프레임을 생성하여 최종 비디오가 부드럽고 시각적으로 만족스럽도록 합니다.
복잡한 사전 훈련된 이미지 모델이 필요한 많은 비디오 모델과 달리 MarDini는 레이블이 지정되지 않은 비디오 데이터를 사용하여 처음부터 훈련한다고 주장합니다. 이는 훈련 과정에서 프레임의 마스킹 방법을 유연하게 조정하여 모델이 다양한 프레임 구성에 더 잘 대처할 수 있도록 하는 점진적인 훈련 전략을 채택하기 때문입니다.
MarDini의 특징은 유연성과 성능입니다. 강력할 뿐만 아니라 효율적이어서 대규모 작업에 적합합니다. 이 모델은 기존 비디오 클립을 매끄럽게 만들거나 처음부터 완전한 시퀀스를 생성하는 등 비디오 보간, 이미지-비디오 생성, 비디오 확장 등의 작업을 처리할 수 있습니다.
성능 측면에서 MarDini는 더 적은 단계로 고품질 비디오를 생성하여 더 복잡한 대안에 비해 비용 및 시간 효율적으로 새로운 벤치마크를 설정했습니다. 공식 연구 논문에는 "우리의 연구에 따르면 우리의 모델링 전략은 다양한 보간 및 애니메이션 벤치마크에서 경쟁력 있는 성능을 발휘하는 동시에 비슷한 매개변수 규모에서 계산 요구 사항을 줄인다는 것을 보여줍니다."라고 나와 있습니다.
프로젝트 입구: https://mardini-vidgen.github.io/
전체적으로 MarDini 모델은 효율적인 성능과 유연한 적용 시나리오를 통해 비디오 제작 분야에 새로운 가능성을 제공합니다. 혁신적인 기술과 우수한 성능으로 인해 향후 영상 생성 및 처리 분야의 선도적인 기술이 될 것으로 기대됩니다. 앞으로 MarDini가 더 많은 놀라움을 선사할 것을 기대해 주세요!