ビデオ生成分野では、Openai Soraは、トレーニングコストの高いコストと優れたパフォーマンスの業界ベンチマークと見なされています。しかし、Luchen Technologyは最近、ビデオ生成モデルOpen-Sora2.0のオープンソースを発表しました。これは、間違いなく業界で大きな感覚を引き起こしました。 Open-Sora2.0は、トレーニングコストとパフォーマンスが非常に低いモデルに近いため、すぐにビデオ生成テクノロジーの新しい焦点になりました。
Open-SORA2.0のトレーニングコストはわずか200,000米ドルで、これは224 GPUの投資に相当しますが、110億パラメーターを備えた商業レベルのビデオ生成モデルのトレーニングに成功しています。この成果は、Luchen Technologyの技術的ブレークスルーを実証するだけでなく、ビデオ生成の分野に新しい可能性をもたらします。

Open-Sora2.0はOpenai Soraよりもはるかに低いですが、そのパフォーマンスはそれ以上です。 Open-Sora2.0は、権威あるレビューVbenchおよびユーザー優先テストで印象的に実行されており、複数の主要なメトリックでトレーニングするのに数百万ドルの費用がかかるクローズドソースモデルと競合することさえできます。特にVBenchの評価では、Open-Sora2.0とOpenai Soraのパフォーマンスギャップは、過去4.52%から0.69%に縮小されており、包括的なパフォーマンスのストライキをほとんど達成しています。
さらにエキサイティングなのは、オープンソラ2.0スコアがVbenchのTencentのHunyuanvideoを上回り、ビデオ生成テクノロジーに強い強みを示していることです。この成果は、オープンソラ2.0の技術的利点を証明するだけでなく、オープンソースのビデオ生成テクノロジーの新しいベンチマークも設定します。
ユーザー優先レビューでは、Open-Sora2.0には、視覚パフォーマンス、テキストの一貫性、およびアクションパフォーマンスの3つの重要な次元で、オープンソースSOTAモデルHunyuanvideoとBusiness Model Runway Gen-3alphaを上回る少なくとも2つの指標があります。この成果は、ビデオ生成分野でのオープンソラ2.0の主要なポジションをさらに統合します。

Open-Sora2.0がこのような低コストでこのような高性能を達成できる理由は、一連の技術革新と最適化戦略によるものです。まず第一に、Open-Sora2.0は、Open-Sora1.2の設計アイデアを継続し、3Dオートエンコーダーとフローマッチングトレーニングフレームワークを採用し、ビデオ生成の品質をさらに向上させるために3Dフル注意メカニズムを導入します。
最終的なコストの最適化を追求するために、オープンソラ2.0は複数の側面から始まります。厳格なデータスクリーニングにより、高品質のトレーニングデータ入力が保証され、モーション情報を効率的に学習するための低解像度トレーニングが優先され、モデルの収束を促進するためのグラフビデオタスクのトレーニングが与えられ、効率的なトレーニングスキームを採用します。
市場での10Bを超えるオープンソースビデオモデルの単一のトレーニングのコストは、多くの場合数百万ドルであると推定されていますが、オープンソラ2.0はこのコストを5〜10倍削減します。このブレークスルーは、高品質のビデオ生成のしきい値を下げるだけでなく、より多くの開発者がビデオ生成テクノロジーの研究開発に参加する機会を提供します。
さらに称賛に値するのは、オープンソラ2.0オープンソースモデルコードと重みだけでなく、オープンソースのフルプロセストレーニングコードも、間違いなくオープンソースエコシステム全体の開発を大いに促進することです。 Open-Sora2.0のアカデミックペーパーの引用の数は、半年以内に100近くの引用を受け取り、世界で最も影響力のあるオープンソースビデオ生成プロジェクトの1つになり、グローバルなオープンソースの影響ランキングで1位にランクされています。
Open-Sora2.0チームは、推論コストを大幅に削減するために、高圧縮比ビデオ自動エンコーダーの適用を積極的に調査しています。彼らは、高い圧縮比(4×32×32)のビデオ自動エンコーダーをトレーニングし、768pxと5秒のビデオを1枚近くのカードで30分近くから3分以内に生成するという推論時間を短縮し、速度は10倍増加しました。この革新は、将来、高品質のビデオコンテンツをより速く生成できることを意味します。
Luchen Technologyによって開始されたオープンソースのビデオ生成モデルオープンソラ2.0は、低コストで高性能で包括的なオープンソースの特性を備えており、間違いなくビデオ生成分野に強い「パリティ」トレンドをもたらします。その出現は、トップクローズドソースモデルでギャップを狭めるだけでなく、高品質のビデオ生成のしきい値を下げ、より多くの開発者が参加し、ビデオ生成テクノロジーの開発を共同で促進できるようにしました。
Githubオープンソースリポジトリ:https://github.com/hpcaitech/open-sora
テクニカルレポート:https://github.com/hpcaitech/open-sora-demo/blob/main/paper/open_sora_2_tech_report.pdf