Microsoftは最近、公式ウェブサイトでマルチモーダルAIエージェントベーシックモデル「Magma」を公式にリリースし、オープンソースを発表しました。このテクノロジーの発売は、特にマグマが前例のない可能性を示しているマルチモーダル機能の点で、人工知能の分野での大きなブレークスルーを示しています。従来のスマートアシスタントと比較して、Magmaは画像、ビデオ、テキストなどのさまざまなデータフォームを処理し、デジタルの世界と物理世界の境界を破り、ユーザーによりインテリジェントなサービスエクスペリエンスを提供できます。
マグマには幅広いアプリケーションがあり、日常生活から複雑な操作までの複数の分野をカバーしています。たとえば、eコマースプラットフォームでは、マグマはユーザーが注文を自動的に配置したり、天気やその他の日常業務を確認したりするのに役立ちます。より複雑なシナリオでは、マグマは物理的なロボットと協力して、チェスなどのタスクを実行できます。実際のチェスゲームでは、マグマはユーザーにリアルタイムの戦略的アドバイスを提供し、ゲームのインタラクティブで楽しさを大幅に改善できます。さらに、マグマには心理的予測機能もあり、ビデオ内のキャラクターやオブジェクトの将来の動作を推測することができ、仮想アシスタントまたはロボットが周囲の環境をよりよく理解し、それに応じて対応できるようにします。

Microsoftの公式紹介によると、Magmaのアプリケーションシナリオは家族生活に限定されませんが、より多くの分野に拡張することもできます。たとえば、ホームロボットが今まで見たことのないアイテムを整理する方法を学ぶのに役立ち、仮想アシスタントの馴染みのないタスクの段階的なユーザーインターフェイスナビゲーション手順を生成するのに役立ちます。この機能により、ユーザーは新しい環境や新しいタスクに直面するときに、より正確なヘルプとガイダンスを取得し、ユーザーエクスペリエンスを大幅に改善できます。

マグマは視覚言語アクション(VLA)の基本モデルの一部であり、大規模な公共の視覚データと言語データを通じて学習できます。この機能により、Magmaは言語、空間的、および時間的知能を効果的に統合して、デジタルおよび物理的な世界でのユーザーの複雑なタスクにソリューションを提供できます。毎日のトランザクションを処理したり、複雑な操作を実行したりするかどうかにかかわらず、マグマは有能であり、その強力なマルチモーダル機能を実証しています。
マグマのオープンソースは、開発者と研究者に、スマートアシスタントとホームロボットの分野でのさらなる開発を促進する強力なツールを提供します。将来的には、この技術が継続的に改善されたため、日常生活のマグマに基づいたより革新的なアプリケーションを見ることができるかもしれません。家族生活、ビジネスシナリオ、または産業分野であろうと、マグマはインテリジェントプロセスを促進する上で重要な力になることが期待されています。
プロジェクトアドレス:https://microsoft.github.io/magma/