최근 Nvidia는 Magic1-For-1이라는 비디오 세대 모델을 발표했으며, 이는 AI 비디오 제작에 대한 사람들의 인식을 다시 한 번 새롭게 해왔습니다. 이 모델의 가장 큰 하이라이트는 단 1 분만에 완전한 1 분짜리 비디오 컨텐츠를 생성하여 "Instant Generation"의 "마술"효과를 진정으로 달성 할 수 있다는 것입니다. 이 획기적인 기술은 비디오 생성 분야에서 AI의 큰 잠재력을 보여줄뿐만 아니라 미래의 디지털 컨텐츠 제작을위한 새로운 가능성을 제공합니다.

Magic1-For-1 모델의 핵심 혁신은 복잡한 "텍스트-비디오"생성 작업을 "텍스트-이미지 생성"과 "이미지-비디오 생성"이라는 두 가지보다 쉽게 처리 할 수있는 두 가지 확산 단계로 분류한다는 것입니다. 이 분해 전략은 모델 교육의 어려움을 줄일뿐만 아니라 생성 속도와 효율성을 크게 향상시킵니다. 연구원들은 동일한 최적화 알고리즘 하에서 Magic1-For-1 모델의 전체 세대 프로세스가 수렴하기가 더 쉽기 때문에 더 빠르고 안정적인 비디오 생성을 달성한다고 지적했다. 이 기술의 성공은 시간 절약뿐만 아니라 메모리 소비 및 추론 지연을 효과적으로 최적화하여 고품질 비디오를 더 부드럽고 효율적으로 생성하는 과정에 반영됩니다.
이 획기적인 기술은 Nvidia에 의해 독립적으로 완료되지 않았지만 Peking University 및 Hedra Inc와 같은 연구 기관의 팀에서 시작했습니다. 그들은 "복잡성을 단순화하기 위해 Magic1-for-1"모델의 핵심 아이디어를 요약했습니다. 텍스트-비디오의 복잡한 프로세스를 두 가지 간단한 단계로 나누어 연구팀은 "텍스트-이미지 생성"의 비교적 성숙하고 효율적인 이점을 최대한 활용하여 전체 비디오 생성 프로세스를 가속화했습니다. 이 방법의 성공은 시간 절약뿐만 아니라 메모리 소비 및 추론 지연의 효과적인 최적화에도 반영되므로 고품질 비디오를 더 부드럽고 효율적으로 생성하는 프로세스가됩니다.
기술 구현 수준에서 "Magic1-For-1"모델은 고급 단계 증류 알고리즘을 사용하여 "발전기"모델을 훈련하여 몇 단계로 고품질 비디오를 생성하는 것을 목표로합니다. 이 목표를 달성하기 위해 연구팀은 실제 데이터 배포를 근사하고 데이터 배포를 생성하기 위해 두 가지 보조 모델을 영리하게 설계했습니다. 이러한 분포를 정확하게 정렬함으로써 "Generator"모델은보다 효과적으로 학습하고보다 현실적인 비디오 컨텐츠를 생성 할 수 있습니다. 또한이 모델은 혁신적으로 CFG 증류 기술을 도입하여 추론 프로세스에서 계산 오버 헤드를 더욱 줄여서 비디오 품질을 보장하면서 생성 속도의 도약을 달성합니다.
"Magic1-for-1"모델의 강력한 성능을 시각적으로 시연하기 위해 연구원들은 훌륭한 데모를했습니다. 결과는 모델이 50 또는 4 단계만으로 멋진 고품질 비디오를 생성 할 수 있음을 보여줍니다. 그 중에서도 50 단계 버전의 비디오는 생생하고 섬세한 사진과 함께 풍부한 움직임과 작곡 세부 사항을 보여줍니다. 4 단계 버전은 모델의 효율적인 처리 기능을 보여주는 데 더 중점을두고 있지만 생성 속도는 인상적입니다. 더 놀라운 점은 슬라이딩 윈도우 방법의 도움으로 "Magic1-for-1"모델은 1 분 동안 지속되는 흥미 진진한 비디오를 생성하면서 시각적 품질과 스포츠 성능이 우수합니다.
"Magic1-for-1"모델의 출현은 비디오 제작 분야에 혁신적인 변화를 가져 왔을뿐만 아니라 미래의 디지털 컨텐츠 생성 기술 개발을위한 새로운 아이디어와 방향을 제공했습니다. 이 기술의 지속적인 대중화와 적용으로 필연적으로 더 많은 제작자와 개발자의 광범위한 관심을 끌고 AI 비디오 세대 산업 전체의 빠른 개발과 번영을 효과적으로 홍보 할 것임을 예견 할 수 있습니다.
프로젝트 주소 : https://magic-141.github.io/magic-141/