還在為短視頻配音效而煩惱嗎?是否總是找不到合適的背景音樂?現在,字節跳動推出了一款革命性的AI技術——SeedFoley音效生成模型,徹底解決了視頻創作中的音效難題。只需簡單操作,SeedFoley就能為你的視頻智能匹配專業級音效,讓你的作品從無聲默片瞬間變成有聲大片。這項技術已經迅速上線字節跳動旗下的視頻創作平台“即夢”,讓每位用戶都能輕鬆體驗一鍵生成音效的神奇功能。

SeedFoley的核心技術在於其革命性的端到端架構,它巧妙地將視頻的時空特徵與強大的擴散生成模型相結合,實現了音效與視頻內容的高度同步。首先,SeedFoley會對視頻進行抽幀分析,提取每一幀的關鍵信息,然後通過視頻編碼器深度解讀視頻內容,理解其中的動作和場景。接著,這些信息被投射到條件空間,為音效生成提供方向。在音效生成過程中,SeedFoley採用了改進的擴散模型框架,根據視頻內容智能生成與之完美匹配的音效方案。

為了讓AI更好地理解聲音的藝術,SeedFoley在訓練過程中學習了大量的語音和音樂相關標籤,使其能夠區分音效和非音效,實現更精準的音效生成。此外,SeedFoley還能處理各種長度的視頻輸入,無論是幾秒的短視頻還是幾分鐘的長視頻,它都能輕鬆應對,並且在音效的準確性、同步性以及與視頻內容的匹配度上,都達到了行業領先水平。
SeedFoley的視頻編碼器採用了快慢特徵組合的技術,在高幀率下捕捉視頻中的細微動作,在低幀率下提取視頻的語義信息。這種快慢結合的方式,既保留了關鍵的運動特徵,又有效降低了計算成本,實現了低功耗與高性能的完美平衡。通過這種技術,SeedFoley能夠在低計算資源下實現8fps幀級別的視頻特徵提取,精准定位視頻中的每一個動作。
在音頻表徵模型方面,SeedFoley採用了原始波形作為輸入,經過編碼後得到1D的音頻表徵。這種方式相比傳統的梅爾頻譜模型,在音頻的重構和生成建模上更具優勢。為了確保高頻信息的完整保留,SeedFoley的音頻採樣率高達32k,每秒鐘的音頻能夠提取到32個音頻潛在表徵,有效提升了音頻在時序上的分辨率,讓生成的音效更加細膩逼真。

SeedFoley的音頻表徵模型還採用了兩階段聯合訓練策略。在第一階段,使用掩碼策略剝離音頻表徵中的相位信息,將去相位後的潛在表徵作為擴散模型的優化目標。在第二階段,使用音頻解碼器從去相位表徵中重建相位信息,將聲音還原到最真實的狀態。這種分步走的策略,有效降低了擴散模型對錶徵的預測難度,最終實現了高質量音頻潛在表徵的生成和還原。
在擴散模型方面,SeedFoley選擇了DiffusionTransformer框架,通過優化概率路徑上的連續映射關係,實現了從高斯噪聲分佈到目標音頻表徵空間的概率精準匹配。相較於傳統擴散模型依賴馬爾可夫鍊式採樣的特性,SeedFoley通過構建連續變換路徑,有效減少了推理步數,大幅降低了推理成本,讓音效生成速度更快,效率更高。
SeedFoley的誕生標誌著視頻內容與音頻生成實現了深度融合。它能夠精準提取視頻幀級視覺信息,通過洞察多幀畫面信息,精準識別視頻中的發聲主體及動作場景。無論是節奏感強烈的音樂瞬間,還是電影中的緊張情節,SeedFoley都能精準卡點,營造出身臨其境的逼真體驗。更令人驚喜的是,SeedFoley還能智能區分動作音效和環境音效,顯著提升視頻的敘事張力和情感傳遞效率。
現在,AI音效功能已正式上線即夢平台,用戶只需使用即夢生成視頻後,選擇AI音效功能,即可一鍵生成3個專業級音效方案。無論是AI視頻創作、生活Vlog、短片製作還是遊戲製作,SeedFoley都能幫助你輕鬆製作出配有專業音效的高質量視頻,讓你的作品瞬間聲動起來!