安定した拡散テキスト生成画像モデルで知られるStability AIは、最近、Global Semiconductor Giant Armとの主要なコラボレーションを開始しました。このコラボレーションの目標は、モバイルデバイスにオーディオを生成するAIテクノロジーを導入し、安定したオーディオオープンモデルをARM CPUで完全に実行できるようにすることです。これは、ユーザーがインターネット接続なしでデバイス上で直接サウンドエフェクト、オーディオサンプル、および生産要素を迅速に生成できることを意味し、作成の利便性と効率を大幅に改善できます。

安定性AIによると、生成的人工知能は企業やプロの作成者の間でますます広く使用されるため、これらのモデルとワークフローがすべての創造的な分野で簡単に使用できるようにすることが特に重要になります。これにより、創造的な効率が向上するだけでなく、これらのテクノロジーを視覚的なメディア制作プロセスにシームレスに統合し、業界全体の革新と開発を促進するのにも役立ちます。
需要の高まりに直面して、安定性AIは、エッジデバイスで実行されるモデルの効率を改善することに取り組んでいます。安定したオーディオオープンモデルを最適化してモバイルデバイスを適合させるため、最初のテストにより、ARM CPUデバイスでオーディオを生成する時間が240秒に達することが示されました。ただし、モデルを蒸留し、特にXnnpackのKleidiaiのINT8マトリックス乗算カーネルを介してアームのソフトウェアスタックを活用することにより、同社は11秒のオーディオクリップを8秒に生成するために時間を短縮し、応答速度が30倍増加しました。
この機能を体験するには、ユーザーが互換性のあるモバイルデバイスが必要であることに注意してください。ほとんどのスマートフォンにアームベースのCPUが装備されていることを考慮すると、このテクノロジーはあらゆる種類のユーザーがよりアクセスしやすくなっています。将来的には、Stability AIは、すべてのモデルを画像、ビデオ、3DのフィールドにEdgeデバイスにもたらし、モバイルデバイスでVisual Mediaの作成方法に革命をもたらし、ユーザーがより豊かで便利な創造的な体験を提供することを目指しています。
キーポイント:
Stability AIはARMと提携して、モバイルデバイスでオフラインでオーディオを生成するテクノロジーを起動しました。
モデルの蒸留とソフトウェアの最適化により、オーディオ生成時間は240秒から8秒に短縮され、効率は30倍増加します。
このテクノロジーは、ARM CPUを搭載したほとんどのスマートフォンで使用でき、将来的にはより多くのメディア作成に拡大します。