Stability AI,这家以Stable Diffusion文本生成图像模型而闻名的公司,最近与全球半导体巨头Arm展开了一项重要合作。此次合作的目标是将生成音频的人工智能技术引入移动设备,使得Stable Audio Open模型能够在Arm CPU上完全运行。这意味着用户可以在无需互联网连接的情况下,直接在设备上快速生成音效、音频样本和制作元素,极大地提升了创作的便捷性和效率。

Stability AI表示,随着生成性人工智能在企业和专业创作者中的应用越来越广泛,确保这些模型和工作流程在各个创造领域都能便捷使用变得尤为重要。这不仅能够提升创作效率,还有助于将这些技术无缝整合进视觉媒体制作流程中,从而推动整个行业的创新和发展。
面对不断增长的需求,Stability AI致力于提高其模型在边缘设备上的运行效率。在优化Stable Audio Open模型以适应移动设备的过程中,初始测试显示,在一台Arm CPU设备上生成音频的时间达到了240秒。然而,通过对模型进行蒸馏处理,并利用Arm的软件栈,特别是通过XNNPack的KleidiAI中的int8矩阵乘法内核,该公司成功将生成一个11秒音频片段的时间缩短至8秒,实现了30倍的响应速度提升。
需要注意的是,用户需要一部兼容的移动设备才能体验这一功能。考虑到如今大多数智能手机都配备Arm架构的CPU,这一技术对各类用户而言都变得更加可及。未来,Stability AI还计划将其在图像、视频和3D领域的所有模型都带到边缘设备,旨在彻底改变移动设备上的视觉媒体创作方式,为用户带来更加丰富和便捷的创作体验。
划重点:
Stability AI与Arm合作,推出可在移动设备上离线生成音频的技术。
通过模型蒸馏和软件优化,音频生成时间从240秒缩短至8秒,效率提升30倍。
这一技术可在大多数搭载Arm CPU的智能手机上使用,未来将扩展到更多媒体创作领域。