오늘날의 디지털 시대에는 AI 생성 된 짧은 비디오가 평범 해졌지만,이 비디오는 종종 깊이와 일관성이 부족하며 청중에게 깊은 인상을주기가 어렵습니다. 이 문제를 해결하기 위해 LCT (Long Context Tuning) 기술이 시작되었습니다. 이 기술은 AI 비디오 생성 모델에게 멀티 샷 이야기 비디오를 지시 할 수있는 기능을 제공하여 영화 및 TV 시리즈와 같은 다양한 샷 사이를 자유롭게 전환하여보다 일관적이고 매혹적인 스토리 장면을 만들 수 있습니다.

과거에는 SORA, KLING 및 GEN3과 같은 최고 AI 비디오 생성 모델이 최대 1 분 동안 현실적인 단일 렌즈 비디오를 생성 할 수있었습니다. 그러나 이러한 모델은 여전히 멀티 렌즈 내러티브 비디오를 생성하는 데 큰 어려움이 있습니다. 영화 장면은 종종 동일한 일관성 이벤트를 캡처하는 여러 다른 단일 샷 비디오로 구성되며, 이는 모델이 시각적 외관과 시간적 역학에서 높은 수준의 일관성을 유지해야합니다.
Jack과 Ruth가 영화 타이타닉의 데크에서 만나는 클래식 장면을 취하십시오. 여기에는 4 개의 메인 샷이 포함되어 있습니다. 잭의 클로즈업, 루스 말하기의 중간 샷, 잭을 향해 걷는 룻의 광각 샷, 뒤에서 루스를 포용하는 잭의 클로즈업. 이러한 장면을 생성하기 위해서는 캐릭터 특성, 배경, 빛 및 톤의 일관성을 보장 할뿐만 아니라 캐릭터 움직임의 리듬과 카메라 움직임의 부드러움을 유지하여 이야기의 매끄러움을 보장해야합니다.
단일 렌즈 세대와 멀티 렌즈 이야기 사이의 격차를 해소하기 위해 연구원들은 다양한 접근법을 제안했지만 이러한 방법의 대부분은 한계가 있습니다. 일부 방법은 주요 시각적 요소를 입력하여 렌즈를 가로 질러 시각적 일관성을 강요하는 데 의존하지만 빛 및 톤과 같은보다 추상적 인 요소를 제어하기는 어렵습니다. 다른 방법은 일관된 키 프레임 세트를 형성 한 다음 이미지 간 비디오 (I2V) 모델을 사용하여 각 렌즈를 독립적으로 합성하여 렌즈 사이의 시간적 일관성을 보장하기가 어렵고 희소 키 프레임은 조건의 효과를 제한합니다.
LCT 기술의 출현은 이러한 문제를 해결하기위한 것입니다. 단일 렌즈 비디오 확산 모델의 컨텍스트 창을 확장하여 장면 레벨 비디오 데이터에서 직접 샷 간 일관성을 배울 수 있습니다. LCT의 핵심 혁신적인 설계에는 전체주의 메커니즘의 확장, 인터레이스 된 3D 위치 임베딩 및 비동기 노이즈 전략이 포함됩니다. 이 디자인을 통해 모델은 비디오를 생성 할 때 동시에 전체 장면의 모든 시각적 및 텍스트 정보를 "초점"할 수 있으므로 크로스 렌즈 종속성을 더 잘 이해하고 유지 관리 할 수 있습니다.
실험 결과에 따르면 LCT 조정 단일 렌즈 모델은 일관된 멀티 렌즈 장면을 생성하고 놀라운 새로운 능력을 보여줍니다. 예를 들어, 모델이 이전에 그러한 작업에 대해 특별히 교육을받지 않은 경우에도 주어진 역할 아이덴티티 및 환경 이미지를 기반으로 조합하여 생성 할 수 있습니다. 또한 LCT 모델은 또한 자동 회귀 렌즈 팽창을 지원하며, 이는 연속 단일 렌즈 확장인지 또는 렌즈 스위칭을 통한 다 렌즈 연장 여부에 관계없이 달성 할 수 있습니다. 이 기능은 긴 비디오 생성을 여러 장면 세그먼트로 나누기 때문에 긴 비디오 생성에 특히 유용하여 사용자가 대화식 수정을 수행 할 수 있도록합니다.
더 나아가서, 연구원들은 LCT 후, 양방향주의를 가진 모델이 상황에 맞는 인과 적 관심에 더 미세 조정 될 수 있음을 발견했다. 이 개선 된주의 메커니즘은 각 렌즈 내에서 양방향주의를 유지하지만 렌즈 사이에서 정보는 이전 렌즈에서 후속 렌즈로만 흐를 수 있습니다. 이 단방향 정보 흐름은자가 회귀 생성 동안 KV-Cache (캐싱 메커니즘)를 효율적으로 활용하여 계산 오버 헤드를 상당히 줄일 수있게합니다.
도 1에 도시 된 바와 같이, LCT 기술은 장면 수준 비디오 생성을 달성하기 위해 단편 필름 제작에 직접 적용될 수있다. 또한 모델은 이러한 특정 작업에 대해 교육을받은 적이 없지만 대화 형 멀티 렌즈 디렉터, 단일 렌즈 확장 및 제로 샘플의 조합 생성과 같은 다양한 신흥 기능을 스폰합니다. 도 2에 도시 된 바와 같이, 장면 레벨 비디오 데이터의 예가 표시되며, 여기에는 글로벌 프롬프트 (캐릭터, 환경 및 스토리 요약 설명) 및 각 샷에 대한 특정 이벤트 설명이 포함되어 있습니다.
요약하면 Long Context Cleartment (L. Long Context Cleartment)는 단일 렌즈 비디오 확산 모델의 컨텍스트 창을 확장하여보다 실용적인 시각적 컨텐츠 생성을위한 새로운 경로를 열어 데이터에서 직접 장면 수준 일관성을 배울 수 있습니다. 이 기술은 AI 생성 비디오의 이야기 능력과 일관성을 향상시킬뿐만 아니라 향후 긴 비디오 생성 및 대화식 비디오 편집을위한 새로운 아이디어를 제공합니다. 우리는 LCT와 같은 기술의 발전으로 인해 향후 비디오 제작이보다 지능적이고 창의적이 될 것이라고 믿을만한 이유가 있습니다.
프로젝트 주소 : https://top.aibase.com/tool/zhangshangxiawentiaoyouulct
종이 주소 : https://arxiv.org/pdf/2503.10589