最近、Microsoftは公式ウェブサイトで「Magma」と呼ばれるマルチモーダルAIエージェント基本モデルを正式にオープンしました。この新しい人工知能には、デジタルおよび物理的な世界に及ぶ機能があり、同時に画像、ビデオ、テキストなどの複数のデータ型を処理できます。従来のAIアシスタントと比較して、マグマは心理的予測機能においてユニークであり、ビデオ内のキャラクターやオブジェクトの意図と将来の行動をより正確に理解できるようにします。

マグマには幅広いアプリケーションシナリオがあり、ユーザーはこのAIを使用して、注文を自動的に配置して天気やその他の日常業務を確認できます。さらに、チェスなどのアクティビティ中に、物理的なロボットを自動的に制御し、ユーザーにリアルタイムのヘルプを提供できます。このマルチモーダル機能により、Magmaはさまざまな環境でうまく機能し、さまざまな複雑なタスクに適応できます。
公式報告によると、マグマはAIを搭載したアシスタントまたはロボットに特に適しており、周囲をよりよく理解し、対応する行動をとるのに役立ちます。たとえば、ホームロボットをガイドして、今まで見たことのないアイテムを整理する方法を学習したり、バーチャルアシスタントがユーザー向けに段階的なガイドを生成するのに役立ちます。この機能により、ロボットの学習能力と実用性が大幅に向上します。
マグマモデルは、VLA(Visual Language Action)シリーズの1つです。膨大な量の公的視覚および言語データを学ぶことで、言語、空間、時間の知能を統合することができ、それにより、実際の生活における複雑なタスクと課題に効果的に対応できます。人工知能技術の開発に伴い、マグマの発売は、スマートアシスタントとロボット工学にとってもう1つの大きな前進を示しています。
プロジェクトリンク:https://microsoft.github.io/magma/
キーポイント:
クロスモーダル機能:マグマは、画像、ビデオ、テキストなどのさまざまなデータ型を処理し、スマートアシスタントの機能を改善できます。
インテリジェントアプリケーション:ユーザーは、注文を自動的に配置し、天候を確認し、マグマを介して物理的なロボットを制御できます。
学習適応性:Magmaは、ロボットが新しいタスクを学習し、仮想アシスタントの運用ガイドを生成し、その有用性を高めるのに役立ちます。