最近、Microsoft Researchチームは複数の大学の研究者と協力して、「Magma」と呼ばれるマルチモーダルAIモデルを立ち上げました。このモデルの設計目標は、画像、テキスト、ビデオなどの複数のデータ型を統合することにより、デジタル環境と物理環境で複雑なタスクを実行することです。テクノロジーの急速な発展により、マルチモーダルAIエージェントは、ロボット工学、仮想アシスタント、ユーザーインターフェイスの自動化でますます広く使用されています。
以前のAIシステムは通常、ビジョン言語の理解やロボット操作など、単一のフィールドに焦点を当てており、これら2つの機能を統一されたモデルに統合することを困難にしています。多くの既存のモデルは特定の分野でうまく機能しますが、さまざまなアプリケーションシナリオでは一般化機能が低いです。たとえば、PIX2ACTおよびWebGumモデルはUIナビゲーションでうまく機能しますが、OpenVLAとRT-2はロボット操作により適していますが、多くの場合、トレーニングが必要であり、デジタル環境と物理環境の境界を越えることは困難です。
「マグマ」モデルの発売は、これらの制限を正確に克服することです。 AIエージェントがさまざまな環境でシームレスに動作できるようにする強力なトレーニング方法を導入することにより、マルチモーダルの理解、アクションポジショニング、および計画機能を統合します。 Magmaのトレーニングデータセットには、画像、ビデオ、ロボットの動きの軌跡をカバーする3,900万サンプルが含まれています。さらに、このモデルは、2つの革新的なテクノロジーを採用しています:セットオブマーク(SOM)とトレースオブマーク(TOM)。前者は、モデルがUI環境で実行可能な視覚オブジェクトをマークすることを可能にしますが、後者は時間の経過とともにオブジェクトの動きを追跡することを可能にし、それにより将来のアクションの計画機能を改善します。
「マグマ」は、高度なディープラーニングアーキテクチャと大規模なトレーニング前の技術を採用して、複数の分野でのパフォーマンスを最適化します。このモデルは、Convnext-XXL Visual Backboneを使用して画像とビデオを処理し、Llama-3-8B言語モデルはテキスト入力の処理を担当します。このアーキテクチャにより、「マグマ」はビジョン、言語、アクションの実行を効率的に統合できます。包括的なトレーニングの後、このモデルは複数のタスクで優れた結果を達成し、強力なマルチモーダルの理解と空間的推論能力を示しています。
プロジェクトの入り口:https://microsoft.github.io/magma/
キーポイント:
マグマモデルは複数のサンプルでトレーニングされており、強力なマルチモーダル学習機能を備えています。
このモデルは、ビジョン、言語、行動を正常に統合し、既存のAIモデルの制限を克服します。
マグマはいくつかのベンチマークでうまく機能しており、強力な一般化と優れた意思決定と実行機能を示しています。