Stability AI,這家以Stable Diffusion文本生成圖像模型而聞名的公司,最近與全球半導體巨頭Arm展開了一項重要合作。此次合作的目標是將生成音頻的人工智能技術引入移動設備,使得Stable Audio Open模型能夠在Arm CPU上完全運行。這意味著用戶可以在無需互聯網連接的情況下,直接在設備上快速生成音效、音頻樣本和製作元素,極大地提升了創作的便捷性和效率。

Stability AI表示,隨著生成性人工智能在企業和專業創作者中的應用越來越廣泛,確保這些模型和工作流程在各個創造領域都能便捷使用變得尤為重要。這不僅能夠提升創作效率,還有助於將這些技術無縫整合進視覺媒體製作流程中,從而推動整個行業的創新和發展。
面對不斷增長的需求,Stability AI致力於提高其模型在邊緣設備上的運行效率。在優化Stable Audio Open模型以適應移動設備的過程中,初始測試顯示,在一台Arm CPU設備上生成音頻的時間達到了240秒。然而,通過對模型進行蒸餾處理,並利用Arm的軟件棧,特別是通過XNNPack的KleidiAI中的int8矩陣乘法內核,該公司成功將生成一個11秒音頻片段的時間縮短至8秒,實現了30倍的響應速度提升。
需要注意的是,用戶需要一部兼容的移動設備才能體驗這一功能。考慮到如今大多數智能手機都配備Arm架構的CPU,這一技術對各類用戶而言都變得更加可及。未來,Stability AI還計劃將其在圖像、視頻和3D領域的所有模型都帶到邊緣設備,旨在徹底改變移動設備上的視覺媒體創作方式,為用戶帶來更加豐富和便捷的創作體驗。
劃重點:
Stability AI與Arm合作,推出可在移動設備上離線生成音頻的技術。
通過模型蒸餾和軟件優化,音頻生成時間從240秒縮短至8秒,效率提升30倍。
這一技術可在大多數搭載Arm CPU的智能手機上使用,未來將擴展到更多媒體創作領域。