Im heutigen digitalen Zeitalter sind die Kurzvideos von AI-generierten Kurzvideos alltäglich geworden, aber diese Videos fehlen oft Tiefe und Kohärenz und sind schwierig, das Publikum wirklich zu beeindrucken. Um dieses Problem zu lösen, entstand eine lange Technologie (Long Context Tuning). Diese Technologie bietet KI-Videogenerierungsmodellen die Möglichkeit, multi-shot-narrative Videos zu leiten, sodass sie sich frei zwischen verschiedenen Aufnahmen wie Filmen und TV-Serien wechseln können, um eine kohärentere und faszinierendere Story-Szene zu schaffen.

In der Vergangenheit konnten die Top-AI-Videogenerierungsmodelle wie Sora, Kling und Gen3 realistische Single-Lens-Videos bis zu einer Minute erzeugen. Diese Modelle haben jedoch immer noch große Herausforderungen bei der Erzeugung von Multi-Lens-narrativen Videos. Eine Filmszene besteht häufig aus mehreren verschiedenen Einzel-Shot-Videos, die das gleiche kohärente Ereignis erfassen, wodurch das Modell ein hohes Maß an Konsistenz in der visuellen Erscheinung und der zeitlichen Dynamik aufrechterhalten muss.
Nehmen Sie die klassische Szene, in der sich Jack und Ruth im Film Titanic auf dem Deck treffen, der vier Hauptaufnahmen enthält: eine Nahaufnahme von Jack, die zurückblickt, eine mittelgroße Aufnahme von Ruth-Reden, eine Weitwinkelaufnahme von Ruth, die auf Jack zugeht, und eine Nahaufnahme von Jack, die Ruth von hinten umarmte. Um eine solche Szene zu erzeugen, ist es nicht nur notwendig, die Konsistenz von Charaktereigenschaften, Hintergrund, Licht und Tönen zu gewährleisten, sondern auch den Rhythmus der Charakterbewegung und die Glätte der Kamerabewegung aufrechtzuerhalten, um die Glätte der Erzählung zu gewährleisten.
Um die Kluft zwischen einer Lensenerzeugung und der Erzählung mit mehreren Linsen zu überbrücken, haben Forscher eine Vielzahl von Ansätzen vorgeschlagen, die meisten dieser Methoden haben jedoch Einschränkungen. Einige Methoden stützen sich darauf, wichtige visuelle Elemente einzugeben, um die visuelle Konsistenz über die Linse zu erzwingen, sind jedoch schwer zu steuern, abstraktere Elemente wie Licht und Töne. Andere Methoden bilden einen kohärenten Satz von Keyframes und verwenden dann das Bild-zu-Video-Modell (I2V), um jede Linse unabhängig zu synthetisieren, was schwierig ist, die zeitliche Konsistenz zwischen den Linsen zu gewährleisten, und spärliche Schlüsselrahmen begrenzen auch die Wirksamkeit der Bedingungen.
Die Entstehung der LCT -Technologie besteht genau darin, diese Probleme zu lösen. Es erweitert das Kontextfenster des Single-Lens-Video-Diffusionsmodells und ermöglicht es ihm, die Kohärenz zwischen Aufnahmen direkt aus Videodaten auf Szenenebene zu lernen. Das innovative Kerndesign von LCT umfasst die Ausdehnung der vollständigen Aufmerksamkeitsmechanismen, die Einbettung von 3D -Positionen und asynchrone Rauschstrategien. Diese Designs ermöglichen es dem Modell, alle visuellen und textuellen Informationen der gesamten Szene gleichzeitig zu "fokussieren", um Videos zu generieren, wodurch das Verständnis und die Aufrechterhaltung von Cross-Lens-Abhängigkeiten besser verstanden und aufrechterhalten wird.
Experimentelle Ergebnisse zeigen, dass das LCT-angepasste Single-Lens-Modell bei der Erzeugung kohärenter Multi-Linsen-Szenen gut abschneidet und einige überraschende neue Fähigkeiten zeigt. Zum Beispiel kann es in Kombination erzeugt werden, basierend auf einer bestimmten Rollenidentität und einem Umgebungsbild, auch wenn das Modell zuvor nicht speziell für solche Aufgaben trainiert wurde. Darüber hinaus unterstützt das LCT-Modell auch die autoregressive Objektivausdehnung, was erreicht werden kann, unabhängig davon, ob es sich um eine kontinuierliche Verlängerung oder mehreren Lens-Erweiterungen mit Linsenschalter handelt. Diese Funktion ist besonders nützlich für die lange Videoerstellung, da sie die lange Videogenerierung in mehrere Szenensegmente unterteilt, was den Benutzern die Vorbereitung interaktiver Modifikationen erleichtert.
Die Forscher stellten auch fest, dass Modelle mit bidirektionaler Aufmerksamkeit nach LCT weiter auf kontextbezogene kausale Aufmerksamkeit abgestimmt werden können. Dieser verbesserte Aufmerksamkeitsmechanismus bleibt in jeder Linse eine bidirektionale Aufmerksamkeit, aber zwischen den Objektiven können Informationen nur von früheren Linsen zu nachfolgenden Objektiven fließen. Dieser Einweginformationsfluss ermöglicht es, dass KV-Cache (ein Caching-Mechanismus) während der Autoregressionserstellung effizient genutzt wird, wodurch die Rechenaufwand erheblich reduziert wird.
Wie in Abbildung 1 gezeigt, kann die LCT-Technologie direkt auf die Kurzfilmproduktion angewendet werden, um die Videogenerierung auf Szenenebene zu erreichen. Noch aufregender ist, dass es auch eine Vielzahl von aufstrebenden Fähigkeiten wie interaktive Multi-Objektiv-Regisseure, Einzellinsenerweiterungen und Kombinationserzeugung von Nullproben hervorruft, obwohl das Modell für diese spezifischen Aufgaben noch nie geschult wurde. Wie in Abbildung 2 gezeigt, wird ein Beispiel für Videodaten auf Szenenebene gezeigt, die globale Eingabeaufforderungen (Beschreibung des Charakters, Umfelds und Zusammenfassung) und spezifische Ereignisbeschreibungen für jede Aufnahme enthält.
Zusammenfassend lässt sich sagen, dass die Long Context Adjustment (LCT) einen neuen Pfad für die Erstellung von visuellen Inhalten eröffnet, indem das Kontextfenster des Video-Diffusionsmodells mit einem Linsen erweitert wird, sodass es die Kohärenz auf Szenenebene direkt aus den Daten erlernen kann. Diese Technologie verbessert nicht nur die narrative Fähigkeit und Kohärenz von Videos mit AI-generierten, sondern bietet auch neue Ideen für die zukünftige lange Videogenerierung und die interaktive Videobearbeitung. Wir haben Grund zu der Annahme, dass zukünftige Videoerstellung aufgrund von Fortschritten in Technologien wie LCT intelligenter und kreativer werden wird.
Projektadresse: https://top.aibase.com/tool/zhangshangxiawentiaoyouulct
Papieradresse: https://arxiv.org/pdf/2503.10589