最近、HPC-AI Techは、一般的なトレーニングコストの約10分の1で商業グレードの品質を達成できる画期的なビデオAIシステムであるOpen-Sora 2.0の発売を発表しました。この進捗は、言語モデルで見られる効率の向上に匹敵する、リソース集約型ビデオAIフィールドのパラダイムシフトの可能性を示しています。
映画GenやStep-Video-T2Vなどの既存の高品質のビデオ生成システムは、数百万ドルのトレーニングを必要とする場合がありますが、オープンソラ2.0のトレーニング支出はわずか200,000ドルです。大幅なコスト削減にもかかわらず、テストは、その出力の品質が、Runway Gen-3alphaやHunyuanvideoなどの確立された商用システムに匹敵することを示しています。このシステムは、トレーニングに224 NVIDIA H200GPUを使用しています。
ヒント:「2人の女性がベージュのソファに座っています。部屋は暖かく快適で、レンガの壁が背景にあります。 |ビデオ:HPC-AI Tech
Open-Sora2.0は、低解像度のビデオから始まり、より高い解像度を徐々に改善する、新しい3段階のトレーニングプロセスを通じて効率を達成します。 Fluxなどの統合された事前に訓練された画像モデルは、リソースの利用をさらに最適化します。そのコアには、ビデオDC-AEオートエンコーダーのビデオがあり、従来の方法と比較して優れた圧縮速度を提供します。このイノベーションは、驚くべき5.2倍の高速トレーニング速度と、ビデオ生成速度を超えています。圧縮速度が高いと、出力の詳細がわずかに減少しますが、ビデオ作成プロセスを大幅に高速化します。
ヒント:「トマトがレタスのスライスをサーフィンし、牧草地の滝を下り、誇張されたサーフィンと滑らかな波の影響を3Dアニメーションの楽しさを強調しています。」 |ビデオ:HPC-AI Tech
このオープンソースシステムは、テキストの説明と単一の画像からビデオを生成し、ユーザーがモーションスコアリング関数を介して生成されたクリップ内の動きの強度を制御できるようにします。 HPC-AI Techが提供する例は、現実的な対話や気まぐれなアニメーションなど、さまざまなシナリオを紹介します。
ただし、Open-Sora 2.0には現在、解像度(768x768ピクセル)と最大ビデオ持続時間(5秒または128フレーム)に制限があり、これはOpenaiのSORAなどの主要なモデルの機能よりも劣っています。それにもかかわらず、視覚品質、キューの精度、モーション処理などの主要分野でのパフォーマンスは、商業基準に近づいています。 Open-Sora2.0のVBenchスコアは、OpenaiのSORAにわずか0.69%になっていることに注意してください。
ヒント:「擬人化されたキノコの束は、ネオンライトと誇張されたダンスステップを点滅させる、暗い魔法の森でディスコパーティーを開催します。滑らかなテクスチャと反射面は面白い3Dの外観を強調します。」 |ビデオ:HPC-AI Tech
Open-SORA2.0の費用対効果の高い戦略は、言語モデルの「DeepSeekモーメント」を反映しています。トレーニング方法が改善された場合、オープンソースシステムにより、商業システムよりもはるかに低コストで商業グレードのパフォーマンスを実現できます。この開発は、ビデオAIフィールドの価格に下方に圧力をかける可能性があります。これは、高いコンピューティング需要のために現在数秒で請求されています。

トレーニングコストの比較:Open-Sora2.0の費用は約200,000ドル、映画Genは250万ドル、Step-Video-T2Vは100万ドルかかります。 |写真:HPC-AI Tech
この進歩にもかかわらず、オープンソースと商業ビデオAIのパフォーマンスギャップは、言語モデルのパフォーマンスギャップよりも大きく、この分野で進行中の技術的課題を強調しています。 Open-Sora2.0は、GitHubのオープンソースプロジェクトとして利用できるようになりました。