画像生成モデルは近年AIの分野で大きな進歩を遂げていますが、高品質の画像が問題になっている速度が問題になっています。 Luma AIの最新のオープンソース誘導モーメントマッチング(IMM)テクノロジーは、この問題に対する画期的なソリューションを提供します。推論段階の効率を最適化することにより、IMMはAIの分野で「ターボチャージ」と呼ばれる画像生成速度を大幅に改善しました。
現在、AIコミュニティは一般に、生成事前トレーニングのボトルネックの問題に直面しています。データの量は増加し続けていますが、アルゴリズムのイノベーションは比較的遅れています。 Luma AIは、問題のコアはデータが不十分ではなく、既存のアルゴリズムがデータの可能性を完全にタップできないことが不足していることを指摘しました。それは金鉱山を所有するようなものですが、元のツールを使用してそれらをマイニングするだけで、これは非効率的です。この「アルゴリズムの天井」を破るために、Luma AIは推論時間コンピューティングの拡張に注意を向け、IMMテクノロジーを提案しました。
IMMのユニークな点は、推論効率の観点からトレーニング前アルゴリズムを再設計することです。従来の拡散モデルは徐々に調整する必要があり、画像を生成するプロセスは迷路で探索するようなものです。一方、IMMは「ターゲットタイムステップ」の概念を導入し、モデルが推論プロセスでより柔軟に「ジャンプ」することができ、生成に必要なステップを大幅に削減しました。この設計は、速度を改善するだけでなく、各反復の表現力を高めることもできます。
さらに、IMMは最大平均不一致テクノロジーも採用しており、推論プロセスに正確なナビゲーションを提供し、モデルが高品質の画像を効率的に生成できるようにします。この革新により、IMMは速度と品質の両方で従来の方法を上回ることができました。
実験結果は、IMMが1.99のFIDスコアを達成し、ImagENET256x256データセットのサンプリングステップが30倍しか少ないことを示しており、拡散モデルとフローマッチングを上回ります。 CIFAR-10データセットでは、IMMはわずか2ステップでFIDスコア1.98を取得し、このデータセットに最適なレベルを設定しました。この「稲妻」速度により、IMMは画像生成の分野で際立っています。
Speedの優位性に加えて、IMMはトレーニングの安定性もうまく機能しました。特別なハイパーパラメーター設計を必要とする一貫性モデルやその他のモデルと比較して、IMMはさまざまなハイパーパラメーターやモデルアーキテクチャの下で安定して訓練され、使用のしきい値をさらに削減できます。
Luma AIは、IMMの成功は、モーメントマッチングテクノロジーの適用だけでなく、推論を最優先するデザインのアイデアにも依存していることを強調しています。この革新的な視点により、既存のトレーニング前パラダイムの制限を突破し、マルチモーダル基本モデルの開発のための新しい方向性を開くことができます。 Luma Aiは、IMMはほんの始まりに過ぎず、将来より創造的な知性の可能性を解き放つと考えています。
githubリポジトリ:https://github.com/lumalabs/imm