今日のデジタル時代では、AIに生成された短いビデオが一般的になりましたが、これらのビデオはしばしば深さと一貫性がなく、観客を本当に感動させることは困難です。この問題を解決するために、長いコンテキストチューニング(LCT)テクノロジーが生まれました。このテクノロジーにより、AIビデオ生成モデルは、マルチショットの物語ビデオを監督する機能を提供し、映画やテレビシリーズなどのさまざまなショット間で自由に切り替えることができ、より首尾一貫した魅力的なストーリーシーンを作成できます。

過去には、Sora、Kling、Gen3などのトップAIビデオ生成モデルは、最大1分間のリアルなシングルレンズビデオを生成することができました。ただし、これらのモデルは、マルチレンズの物語ビデオを生成する上で依然として大きな課題を抱えています。映画シーンは、多くの場合、同じコヒーレントイベントをキャプチャする複数の異なるシングルショットビデオで構成されており、視覚的な外観と時間的ダイナミクスの高度な一貫性を維持する必要があります。
ジャックとルースが映画タイタニックのデッキで出会う古典的なシーンを撮ります。これには、ジャックのクローズアップ、ルースのミディアムショット、ルースがジャックに向かって歩いているルースのワイドアングルショット、ジャックのクローズアップが後ろから抱きしめているクラシックなシーンをご覧ください。このようなシーンを生成するには、キャラクターの特性、背景、光、トーンの一貫性を確保するだけでなく、キャラクターの動きのリズムとカメラの動きの滑らかさを維持して物語の滑らかさを確保することも必要です。
シングルレンズの生成とマルチレンズの物語のギャップを埋めるために、研究者はさまざまなアプローチを提案していますが、これらの方法のほとんどには制限があります。いくつかの方法は、重要な視覚要素を入力してレンズ全体の視覚的一貫性を強制することに依存していますが、光やトーンなどのより抽象的な要素を制御することは困難です。他の方法は、キーフレームのコヒーレントセットを形成し、画像間(I2V)モデルを使用して各レンズを独立して合成します。これは、レンズ間の時間的一貫性を確保することが困難であり、キーフレームは条件の有効性を制限します。
LCTテクノロジーの出現は、これらの問題を正確に解決することです。シングルレンズビデオ拡散モデルのコンテキストウィンドウを展開し、シーンレベルのビデオデータから直接ショット間の一貫性を学習できます。 LCTのコア革新的な設計には、完全な注意メカニズムの拡大、インターレース3D位置埋め込み、および非同期ノイズ戦略が含まれます。これらの設計により、モデルはビデオを生成するときに同時にシーン全体のすべての視覚的およびテキスト情報を「フォーカス」し、それにより、クロスレンズの依存関係をよりよく理解し、維持することができます。
実験結果は、LCT調整されたシングルレンズモデルがコヒーレントマルチレンズシーンの生成においてうまく機能し、驚くべき新しい能力を示していることを示しています。たとえば、モデルが以前にそのようなタスクのために特別に訓練されていない場合でも、特定の役割のアイデンティティと環境イメージに基づいて組み合わせて生成できます。さらに、LCTモデルは、自動再生レンズ拡張もサポートします。これは、連続シングルレンズ拡張であろうとレンズスイッチングを伴うマルチレンズ拡張であろうと実現できます。この機能は、長いビデオ生成を複数のシーンセグメントに分解するため、長いビデオ作成に特に役立ちます。これにより、ユーザーがインタラクティブな変更を加えることができます。
さらに進むと、研究者たちは、LCTの後、双方向の注意を払ったモデルが文脈上の因果関係にさらに微調整できることを発見しました。この改善された注意メカニズムは、各レンズ内の双方向の注意のままですが、レンズ間では、情報は以前のレンズからその後のレンズにのみ流れることができます。この一元配置情報の流れにより、KVキャッシュ(キャッシュメカニズム)を自己回復の生成中に効率的に利用することにより、計算オーバーヘッドを大幅に削減できます。
図1に示すように、LCTテクノロジーを短編映画制作に直接適用して、シーンレベルのビデオ生成を実現できます。さらにエキサイティングなことに、インタラクティブなマルチレンズディレクター、シングルレンズ拡張、ゼロサンプルの組み合わせ生成など、さまざまな新興機能が生成されますが、モデルはこれらの特定のタスクのトレーニングを受けていません。図2に示すように、シーンレベルのビデオデータの例が示されています。これには、各ショットのグローバルプロンプト(キャラクター、環境、ストーリーの概要を説明)と特定のイベントの説明が含まれています。
要約すると、長いコンテキスト調整(LCT)は、シングルレンズビデオ拡散モデルのコンテキストウィンドウを拡張し、データから直接シーンレベルのコヒーレンスを学習できるようにすることにより、より実用的な視覚コンテンツ作成のための新しいパスを開きます。このテクノロジーは、AIに生成されたビデオの物語能力と一貫性を改善するだけでなく、将来の長いビデオ生成とインタラクティブなビデオ編集の新しいアイデアを提供します。 LCTなどのテクノロジーの進歩により、将来のビデオ作成がよりインテリジェントで創造的になると信じる理由があります。
プロジェクトアドレス:https://top.aibase.com/tool/zhangshangxiawentiaoyouulct
紙の住所:https://arxiv.org/pdf/2503.10589