シンガポール国立大学とパデュー大学の研究者は、拡散変換に基づいてビデオ生成のリアルタイム処理を可能にする、PAB と呼ばれる画期的なテクノロジーを開発しました。このテクノロジーは拡散トランスフォーマー (DiT) モデルに基づいており、冗長なアテンション計算を削減することでビデオ生成速度を 10.6 倍向上させ、毎秒 21.6 フレームという驚異的な速度に達します。 PAB は、追加のトレーニングなしで、Open-Sora、Open-Sora-Plan、Latte などの複数の一般的な DiT ビデオ生成モデルに適用でき、将来のリアルタイム ビデオ生成テクノロジのための強固な基盤を築きます。処理速度が大幅に向上するだけでなく、ビデオ品質を確保しながら複数の GPU 間の通信オーバーヘッドを大幅に削減し、リアルタイムビデオ生成のためのより効率的な分散推論機能を提供します。以下に、PAB テクノロジーについてさらに詳しく説明します。
最近、シンガポール国立大学とパデュー大学の研究者らは、拡散変換に基づくビデオ生成のリアルタイム処理を実現する PAB テクノロジーの提案に成功しました。
製品入口:https://top.aibase.com/tool/pab
このテクノロジーは、Difffusion Transformer (DiT) に基づくビデオ生成モデルにおける初の試みであり、品質を犠牲にすることなく、冗長なアテンション計算を削減することで 1 秒あたり最大 21.6 フレームの生成速度を達成し、品質を犠牲にすることなく 10.6 倍の高速化を実現します。 Open-Sora、Open-Sora-Plan、Latte などのビデオ生成モデル。 PAB は、リアルタイム生成機能を備えた将来の DiT ビデオ生成モデルを強化できる、トレーニング不要の手法です。 PAB はトレーニングを必要とせず、将来の拡散変換ベースのビデオ生成モデルにリアルタイムで処理する機能を提供できます。

重要な機能:
PAB アテンション ブロードキャストは、冗長なアテンション計算を削減することでビデオ生成の速度を大幅に向上させ、リアルタイム生成を実現します。
アテンションの安定性と差異に基づいて、PAB はさまざまなタイプのアテンションに対して異なるブロードキャスト範囲を設定するため、計算効率を確保しながら品質の損失を最小限に抑えます。
PAB はシーケンス並列処理テクノロジーを改善することで、複数の GPU 間の通信オーバーヘッドを削減し、ビデオ生成の速度と効率をさらに向上させます。
研究者らは、ビデオ拡散変換モデルの注意メカニズムにはタイムステップごとに明らかな違いがあることを発見しました。この発見を通じて、不必要な注意計算を軽減するためにPABが提案されました。安定した中間部分では、PAB は 1 つの拡散ステップのアテンション出力を後続の複数のステップにブロードキャストすることで、計算コストを大幅に削減します。さらに、より効率的な計算と品質の損失を最小限に抑えるために、異なるアテンション タイプに対して異なるブロードキャスト範囲が設定されます。
ビデオ生成の速度をさらに向上させるために、研究者らは動的シーケンス並列処理 (DSP) に基づく並列処理方法を改良しました。これにより、ブロードキャスト時間の注意による通信オーバーヘッドのほとんどが排除され、通信オーバーヘッドの 50% 以上の削減が達成されました。リアルタイムビデオ生成のためのより優れたソリューションを提供し、より効率的な分散推論機能を提供します。
ハイライト:
⭐ PAB テクノロジーにより、リアルタイムのビデオ生成が可能になり、処理速度が 10.6 倍高速化されます。
⭐ ビデオ拡散変換モデルの注意メカニズムの違いを観察することにより、不必要な注意計算を軽減するために PAB が提案されます。
⭐ 並列処理方法を改善することにより、通信オーバーヘッドが大幅に削減され、リアルタイムビデオ生成のためのより効率的な分散推論機能が提供されます。
PAB テクノロジーの出現は、リアルタイム ビデオ生成テクノロジーにおける大きな進歩を示し、拡散変換に基づく将来のビデオ生成モデルに強力なリアルタイム処理機能を提供し、ビデオ分野における人工知能の応用の可能性をさらに拡大します。 PAB テクノロジーは、将来ビデオ生成の分野でますます重要な役割を果たすと考えられています。