Downcodes小編報:Adobe與密西根大學合作研發了一款名為MultiFoley的AI音效產生系統,它能透過文字提示、音訊或視訊範例產生電影和影片中的配音音效,大幅提升後製效率。這款系統支援多種輸入方式,並能將不同聲音轉換,例如將貓叫聲轉換為獅吼。其高頻寬的音訊輸出品質和精準的視訊同步效果,在用戶測試中獲得了極高的評價。
最近,Adobe 研究團隊與密西根大學的研究人員共同開發了一款名為MultiFoley 的人工智慧系統,這款系統能夠產生影片和影片中的配音音效,協助後製。
MultiFoley 的創新之處在於它允許用戶透過文字提示、參考音訊或視訊範例來創造音效。在示範中,該系統甚至能將貓的叫聲轉化為獅子的吼叫,或將打字機的聲音轉換為鋼琴音符,並與視訊畫面完美同步。
MultiFoley 的音訊輸出品質達到48kHz 的高頻寬,這主要得益於研究人員使用網路上的視訊和專業音效庫進行訓練。與以往的系統不同,MultiFoley 首次將多種輸入方式—— 文字、音訊和視訊參考—— 整合到同一模型中。它透過分析每秒8幀的視覺特徵,並將其放大以匹配40Hz 的音訊取樣率,確保生成的音訊與視訊保持緊密同步。

在測試中,MultiFoley 在音訊與視訊的同步和音效與文字描述的匹配方面表現出色,平均同步精度達到了0.8秒,顯著優於傳統系統通常超過一秒的延遲。使用者研究顯示,85.8% 的參與者認為MultiFoley 在語義一致性方面優於第二名,而94.5% 的參與者更喜歡它的同步效果。

儘管MultiFoley 展現了強大的潛力,但研究團隊也指出目前的一些局限性,例如訓練資料相對較小,這限制了它的音效種類。同時,系統在產生多個同時音效時也存在一定困難。研究團隊計劃不久後發布原始程式碼和模型。
雖然Adobe 尚未宣布將MultiFoley 納入其產品中,但這項技術與Adobe Premiere Pro 影片編輯軟體中現有的人工智慧功能非常契合,並有望為個人創作者和製作公司在音效設計流程中帶來便利。
劃重點:
? MultiFoley 是Adobe 與密西根大學合作開發的一款AI 音效產生系統,可透過多種輸入方式產生音效。
? 此系統的音訊輸出品質達到48kHz,平均同步精度為0.8秒,優於傳統音效系統。
使用者研究顯示,MultiFoley 在音效的語意一致性和同步效果方面都獲得了高評價。
總而言之,MultiFoley 的出現為音效製作帶來了新的可能性,其高效精準的性能和便捷的操作方式有望改變未來的音效製作流程。讓我們期待其原始碼和模型的發布,以及在Adobe產品中的應用。