AI動画の新時代を切り開いたsoraの誕生以来、国内外の大手企業が続々とAI動画コンペティションに参加している。しかし、よりインタラクティブで没入型のビデオという新しい時代を迎えるにあたり、コスト、品質、パフォーマンスの課題にどのように対処すればよいでしょうか?
10 月 15 日、Volcano Engine と Intel は Video Cloud Technology Conference で共同で大規模モデル トレーニング ビデオ前処理ソリューションをリリースしました。 「デイリー経済ニュース」の記者は記者会見で、この技術ソリューションがビーンバッグビデオ生成モデルに適用されていることを知りました。
記者会見で、Bytedance Researchの責任者Li Hang氏は、Doubaoビデオ生成モデルPixelDanceがトレーニングプロセス中にVolcano Engineの大規模モデルトレーニングビデオ前処理ソリューションを採用し、多数の潮汐リソースを最大限に活用し、強力なサポートを提供していることを紹介した。モデルトレーニング用。
さらに、Douyin Group のビデオ アーキテクチャ責任者である Wang Yue 氏は、Byte が自社開発したビデオ コーデック チップの最新の進歩を明らかにしました。Douyin Group の内部実践によって検証されたこのチップは、同じビデオ圧縮の下でコストの 95% 以上を節約します。効率。
「まず第一に、超大規模なビデオ トレーニング データ セットにより、コンピューティングと処理のコストが高騰しています。」Wang Yue 氏は、大規模な模型メーカーは前処理プロセスで多くの課題に直面していると指摘しました。サンプルデータは不均一であり、多くの処理リンクが存在し、プロジェクトは複雑であり、最終的には GPU、CPU、ARM などの複数の異種コンピューティング リソースのスケジューリングと展開に直面します。」
自社開発のマルチメディア処理フレームワーク
9月24日に開催されたVolcano Engine AI Innovation Tourでは、PixelDanceとSeaweedという2つの大型お手玉動画生成モデルが同時に公開され、業界内外の注目を集めた。実際、ビデオ生成モデルにおける ByteDance の取り組みはそれだけではありません。
10 月 15 日、Volcano Engine は、ビデオ大規模モデル トレーニングのコスト、品質、パフォーマンスにおける技術的課題の解決に特化した、大規模モデル トレーニング ビデオ前処理ソリューションをリリースしました。
レポートによると、トレーニング ビデオの前処理は、大規模なモデルのトレーニングの効果を確実にするための重要な前提条件です。前処理プロセスでは、ビデオのデータ形式を統一し、データ品質を向上させ、データを標準化し、データ量を削減し、注釈情報を処理することができるため、モデルはビデオ内の特徴と知識をより効率的に学習し、トレーニングを改善できます。効果と効率。
ビデオ生成モデルのトレーニングにおいて、コンピューティング電力コストが最大の課題であることは間違いありません。
国内のビデオ生成モデルのアルゴリズム エンジニアは、「デイリー エコノミック ニュース」の記者とのインタビューで、「現時点では、高品質のデータを使用すると、ビデオ モデルは大規模な言語モデルよりもトレーニングが難しくなり、より多くの計算能力が必要になる」と述べています。 , 既知のオープンソース ビデオ モデルは、特に大規模ではありません。その主な理由は、多くのビデオ モデルが現在データの使用方法を知らない段階にあり、(トレーニング用の) 高品質のデータがあまりないためです。」
コンピューター科学者の Matthias Prappert 氏の調査によると、Sora のトレーニングには膨大なコンピューティング能力が必要であり、モデルが生成され、コンピューティングが行われる推論段階に達するまでに、4,200 ~ 10,500 台の Nvidia H100 でトレーニングするのに約 1 か月かかります。トレーニングセッションを超えるとコストが急激に増加します。
コスト削減の問題を解決するために、Volcano Engine はインテルの CPU およびその他のリソースを利用し、自社開発のマルチメディア処理フレームワーク上の大規模モデル トレーニング ビデオ前処理ソリューションに依存しています。 Wang Yue氏は、このソリューションはアルゴリズムとエンジニアリングの面でも最適化されており、大量のビデオデータの高品質な前処理を実行し、処理リンクの効率的な連携を短時間で実現し、モデルトレーニングの効率を向上させることができると述べた。
このソリューションの適用に関して、Li Hang 氏は記者会見で、お手玉ビデオ生成モデル PixelDance がトレーニング プロセス中にこのソリューションを採用したことを明らかにしました。同時に、Volcano Engine Video Cloud チームが提供するオンデマンド ソリューションは、PixelDance で制作されたビデオの編集、アップロード、トランスコード、配信、再生に至るまでのライフサイクル全体をワンストップで提供し、モデルの商用応用。
さらに、このカンファレンスでは、Volcano Engine は、多言語同時ライブ ブロードキャスト ソリューション、マルチモーダル ビデオ理解および生成ソリューション、会話型 AI リアルタイム インタラクション ソリューション、および AIG3D および大規模シーン再構成ソリューションもリリースしました。ビデオの制作側、インタラクティブ側から消費者側に至るまで、リンク全体に AI 機能が統合されています。
AIビデオはどこに向かっているのでしょうか?
AI は、人々が情報を生成、発信、受信する方法をあらゆる面で再構築しています。中でも、新たに出現したビデオ技術は、人々をスムーズで高精細なデータの世界から、よりスマートでインタラクティブなエクスペリエンスを備えた AI の世界にもたらしました。
今年 7 月に、SenseTime は、C エンド ユーザー向けの最初の大規模な制御可能なキャラクター ビデオ生成モデルである Vimi をリリースしました。8 月には、MiniMax はビデオ生成モデル video-1 をリリースし、Keling AI は 9 回目の反復を完了して「KeLing 1.5」をリリースしました。モデル」では、Alibaba Cloud が Yunqi Conference で新しいビデオ生成モデルを発表し、Byte も 2 つのビデオ生成モデルをリリースしました。 AI ビデオ製品の誕生と反復には、ほぼ数か月かかります。
AIビデオ製品の「爆発」について、北京社会科学院の准研究員であるWang Peng氏は、『デイリー経済ニュース』の記者とのインタビューで、国内のAIビデオ製品は急速な発展段階にあり、継続的な反復は、主に市場の強い需要と、幅広いアプリケーションシナリオと多様な商品化モデルによるものです。
現在、市場に出回っている AI ビデオ製品は、主に映画やテレビ、電子商取引マーケティングなどの分野で導入されています。たとえば、今年 7 月には、Jimeng AI と Bona Pictures が協力して、国内初の AIGC 生成連続サービスを開始しました。物語的SF短編シリーズ「三星堆:未来啓蒙」「記録」 今年9月、クアイショウはジャ・ジャンクーやリー・シャオホンを含む9人の著名な監督とタッグを組み、「Keling AI」監督共同制作プロジェクトを立ち上げた。
工業情報化部の情報通信経済専門家委員会のメンバーであるパン・ヘリン氏は、「デイリー・エコノミック・ニュース」の記者に対し、一部のAIビデオ製品は現在導入段階にあり、展開が困難であると指摘した。 「現在、AI ビデオ生成のコストが高く、ビデオ制作者は資金が不足していることが多いため、オープンソース (AI ビデオ製品) の方がクローズドソースのものよりも人気があるように感じます。端末にダウンロードされたソース AI アルゴリズムにより、ビデオをより適切に作成および生成できるようになります。」
同氏の見解では、現段階の AI ビデオ製品には、主にコンピューティング能力とコンプライアンス リスクという 2 つの障害があります。 「アルゴリズム、コンピューティング能力、データはすべて、企業がより多くのリソースと時間を投資することを必要とします。別の困難はコンプライアンスのリスクにあります。今日では、プライバシーにますます注目が集まっています。コンプライアンスは避けられないテーマであり、AI ビデオは場合によっては個人情報の侵害となる可能性があります。」プライバシーです」と彼は説明した。
さらに、Analysys 分析リサーチパートナーの Chen Chen 氏も、「デイリー経済ニュース」の記者とのインタビューで、「大規模 AI はモデルのトレーニングと推論のコストが高いため、大規模なビデオ生成モデルの短期的な収益化能力について懸念を表明しました。」 C エンド市場における大規模なビデオ モデルの商用化は、AI ツールに対する C サイド ユーザーの需要が比較的分散しており、支払い意欲も不十分であるため、依然として長い育成期間が必要です。」
AI ビデオの時代が到来しましたが、コストを削減し、効率を高め、より多くの市場を獲得する方法も、大手インターネット企業やテクノロジー企業が直面する重要な命題となるでしょう。