Tencentは最近、最新の画像からビデオへの生成フレームワークのオープンソースであるHunyuanvideo-I2vを発表しました。この動きは、特に成功したオープンソースHunyuanvideoの後、オープンソースコミュニティの開発を促進するための重要なステップとなり、人工知能の分野での革新的な能力をさらに実証しています。

Hunyuanvideo-I2Vは、現在最も高度なビデオ生成テクノロジーを組み合わせており、静的画像を鮮やかなビデオコンテンツに変換し、クリエイターにより創造的な可能性を提供します。ユーザーは写真をアップロードし、写真の動的効果を簡単に説明して、5秒の短いビデオを生成するだけでいいです。このモデルの特徴は、静的な写真を「移動」するだけでなく、背景の効果音と自動的に一致させ、ビデオの楽しく魅力を大幅に向上させることです。
Hunyuanvideo-I2Vは、事前に訓練されたマルチモーダル大手言語モデルをテキストエンコーダーとして利用し、入力画像のセマンティックコンテンツを理解するモデルの能力を大幅に向上させます。これは、ユーザー入力画像がモデルを介してセマンティック画像マーカーを生成し、ビデオ潜在マーカーと組み合わせて、より包括的な完全な注意計算を実現できることを意味します。このようにして、システムは画像とテキストのモダリティの相乗効果を最大化し、静的画像から生成されたビデオコンテンツがより一貫性があり現実的であることを保証します。
より多くのユーザーがこの機能を体験できるようにするために、公式のHunyuan AIビデオWebサイトが起動され、ユーザーはWebサイトに直接アクセスして操作できます。さらに、企業と開発者は、Tencent Cloudを介してAPIインターフェイスを適用して、このテクノロジーをアプリケーションに統合することもできます。このTushengビデオモデルは、Hunyuan Wenshengビデオモデルのオープンソース作業の継続です。合計モデルパラメーターは130億に達し、さまざまなタイプのキャラクターやシーンを生成するのに適しており、リアルなビデオ、アニメーションキャラクター、CGI文字をカバーしています。
特定の使用プロセス中、ユーザーは文字をアップロードして、「リップシンク」で「口」したいテキストまたはオーディオを入力することもできます。システムは、写真の「話す」または「歌う」のキャラクターを作成できます。同時に、Hunyuanは「アクション駆動型」関数を開始しました。ここでは、ユーザーはワンクリックで対応するダンスビデオを生成して、創造の多様性と楽しみを改善できます。
GitHubやHuggingfaceなどの主流の開発者コミュニティでオープンソースのTushengビデオモデルがリリースされていることに言及する価値があります。開発者は、実験と開発のために関連コンテンツをダウンロードできます。オープンソースのコンテンツには、モデルの重み、推論コード、LORAトレーニングコードが含まれています。これにより、開発者はこれに基づいて専用のLORAモデルをトレーニングする可能性を高めます。
オープンソース以来、Huggingfaceの生成モデルの人気が高まっています。昨年12月には、Huggingfaceのトレンドリストのトップであり、GitHubの星の数は8.9kを超えました。また、多くの開発者は、Hunyuanvideoのプラグインと派生モデルを積極的に作成しており、900以上の派生バージョンを蓄積しています。オープンソースHunyuan Dit Literary Graphics Modelは、以前に1,600を超えるデリバティブモデルを備えており、順調に機能しました。
公式ウェブサイト:https://video.hunyuan.tencent.com/
github:https://github.com/tencent/hunyuanvideo-i2v
Huggingface:https://huggingface.co/tencent/hunyuanvideo-i2v