復旦大学のオープンソース プロジェクト Hallo (音声と画像に基づいてスピーキング ビデオを生成するツール) が ComfyUI プラグインをサポートするようになりました。このプロジェクトは、高度なエンドツーエンドの拡散パラダイムと階層化されたオーディオ駆動のビジュアル合成モジュールを通じて、唇の動き、表情、ジェスチャーを含む高精度のオーディオとビジュアルの同期を実現し、生成されたビデオ効果を現実的かつ自然なものにします。インストールプロセスは複雑かもしれませんが、Hallo の出現はオープンソースコミュニティに新たな活力を注入し、ビデオ生成の分野に幅広い可能性をもたらしました。

Hallo プロジェクトでは、音声を入力することで顔写真が話し始め、対応する表情を伴うため、非常に自然な効果が得られます。このプロジェクトは、エンドツーエンドの拡散パラダイムを採用し、唇、表情、ジェスチャーの動きを含むオーディオ入力とビジュアル出力の間の位置合わせ精度を向上させるために、レイヤードオーディオ駆動のビジュアル合成モジュールを導入します。
この階層化されたオーディオ駆動のビジュアル合成モジュールは、表現やジェスチャーの多様性を適応的に制御し、さまざまなアイデンティティに合わせてパーソナライズされたカスタマイズをより効果的に実現します。つまり、誰の顔写真であっても、ハロープロジェクトを通じてトーキング動画を生成することができ、まるで本物の人間が話しているかのような自然な効果が得られます。
Hallo プロジェクトのインストールプロセスは比較的複雑かもしれませんが、その出現がオープンソースエコシステムに新たな活力をもたらしたことは間違いありません。テクノロジーの発展に伴い、今後もこのようなプロジェクトがさらに登場し、私たちの生活にさらなる利便性と楽しさをもたらすことが期待されます。
プラグインのアドレス: https://github.com/AIFSH/ComfyUI-Hallo
Hallo プロジェクトは、優れたビデオ生成効果とオープンソース機能を備え、開発者とユーザーに豊かな創造的な空間を提供します。テクノロジーの進歩とコミュニティの貢献により、Hallo プロジェクトはより強力な機能とより幅広い応用の可能性を持ち、マルチメディア コンテンツの制作にさらなる可能性をもたらすと私は信じています。今後も同様の革新的なプロジェクトがさらに増えることを楽しみにしています。