復旦大學開源計畫Hallo,一個基於音訊和圖片生成說話影片的工具,現已支援ComfyUI插件。該專案透過先進的端到端擴散範式和分層音訊驅動視覺合成模組,實現了高精度音訊和視覺同步,包括唇部動作、表情和姿態,使生成的視訊效果逼真自然。儘管安裝過程可能較為複雜,但Hallo的出現為開源社群注入了新的活力,也為影片生成領域提供了更廣闊的可能性。

Hallo專案透過輸入音頻,可以讓臉部照片開始說話,並且伴隨著相應的表情,效果看起來非常自然。這個專案採用了端到端的擴散範式,引入了分層的音訊驅動視覺合成模組,以提高音訊輸入與視覺輸出之間的對齊精度,包括唇部、表情和姿勢的運動。
這種分層音訊驅動的視覺合成模組,提供了對錶情和姿勢多樣性的自適應控制,更有效地實現了針對不同身分的個人化客製化。這意味著,無論是誰的面部照片,都可以透過Hallo計畫生成說話的視頻,而且效果自然,彷彿真人在說話一般。
儘管Hallo專案的安裝過程可能相對複雜,但它的出現無疑為開源生態帶來了新的活力。隨著科技的不斷發展,我們可以期待未來會有更多這樣的計畫出現,為我們的生活帶來更多的便利和樂趣。
外掛程式位址:https://github.com/AIFSH/ComfyUI-Hallo
Hallo專案憑藉其出色的視訊生成效果和開源的特性,為開發者和用戶提供了豐富的創造空間。相信隨著技術的進步和社群的貢獻,Hallo計畫將擁有更強大的功能和更廣泛的應用前景,為多媒體內容創作帶來更多可能性。期待未來更多類似的創新項目出現。