还在为短视频配音效而烦恼吗?是否总是找不到合适的背景音乐?现在,字节跳动推出了一款革命性的AI技术——SeedFoley音效生成模型,彻底解决了视频创作中的音效难题。只需简单操作,SeedFoley就能为你的视频智能匹配专业级音效,让你的作品从无声默片瞬间变成有声大片。这项技术已经迅速上线字节跳动旗下的视频创作平台“即梦”,让每位用户都能轻松体验一键生成音效的神奇功能。

SeedFoley的核心技术在于其革命性的端到端架构,它巧妙地将视频的时空特征与强大的扩散生成模型相结合,实现了音效与视频内容的高度同步。首先,SeedFoley会对视频进行抽帧分析,提取每一帧的关键信息,然后通过视频编码器深度解读视频内容,理解其中的动作和场景。接着,这些信息被投射到条件空间,为音效生成提供方向。在音效生成过程中,SeedFoley采用了改进的扩散模型框架,根据视频内容智能生成与之完美匹配的音效方案。

为了让AI更好地理解声音的艺术,SeedFoley在训练过程中学习了大量的语音和音乐相关标签,使其能够区分音效和非音效,实现更精准的音效生成。此外,SeedFoley还能处理各种长度的视频输入,无论是几秒的短视频还是几分钟的长视频,它都能轻松应对,并且在音效的准确性、同步性以及与视频内容的匹配度上,都达到了行业领先水平。
SeedFoley的视频编码器采用了快慢特征组合的技术,在高帧率下捕捉视频中的细微动作,在低帧率下提取视频的语义信息。这种快慢结合的方式,既保留了关键的运动特征,又有效降低了计算成本,实现了低功耗与高性能的完美平衡。通过这种技术,SeedFoley能够在低计算资源下实现8fps帧级别的视频特征提取,精准定位视频中的每一个动作。
在音频表征模型方面,SeedFoley采用了原始波形作为输入,经过编码后得到1D的音频表征。这种方式相比传统的梅尔频谱模型,在音频的重构和生成建模上更具优势。为了确保高频信息的完整保留,SeedFoley的音频采样率高达32k,每秒钟的音频能够提取到32个音频潜在表征,有效提升了音频在时序上的分辨率,让生成的音效更加细腻逼真。

SeedFoley的音频表征模型还采用了两阶段联合训练策略。在第一阶段,使用掩码策略剥离音频表征中的相位信息,将去相位后的潜在表征作为扩散模型的优化目标。在第二阶段,使用音频解码器从去相位表征中重建相位信息,将声音还原到最真实的状态。这种分步走的策略,有效降低了扩散模型对表征的预测难度,最终实现了高质量音频潜在表征的生成和还原。
在扩散模型方面,SeedFoley选择了DiffusionTransformer框架,通过优化概率路径上的连续映射关系,实现了从高斯噪声分布到目标音频表征空间的概率精准匹配。相较于传统扩散模型依赖马尔可夫链式采样的特性,SeedFoley通过构建连续变换路径,有效减少了推理步数,大幅降低了推理成本,让音效生成速度更快,效率更高。
SeedFoley的诞生标志着视频内容与音频生成实现了深度融合。它能够精准提取视频帧级视觉信息,通过洞察多帧画面信息,精准识别视频中的发声主体及动作场景。无论是节奏感强烈的音乐瞬间,还是电影中的紧张情节,SeedFoley都能精准卡点,营造出身临其境的逼真体验。更令人惊喜的是,SeedFoley还能智能区分动作音效和环境音效,显著提升视频的叙事张力和情感传递效率。
现在,AI音效功能已正式上线即梦平台,用户只需使用即梦生成视频后,选择AI音效功能,即可一键生成3个专业级音效方案。无论是AI视频创作、生活Vlog、短片制作还是游戏制作,SeedFoley都能帮助你轻松制作出配有专业音效的高质量视频,让你的作品瞬间声动起来!