微软开源全新多模态 AI Agent “Magma”：可自动下单与行为预测 - AI文章

作者：Eve Cole 更新时间：2025-05-25 01:00:03

近日，微软在其官网正式开源了一款名为“Magma”的多模态AI Agent基础模型。这款新型人工智能具有跨越数字和物理世界的能力，能够同时处理图像、视频、文本等多种数据类型。与传统的AI助手相比，Magma的独特之处在于其心理预测功能，使其能够更加准确地理解视频中人物或物体的意图及未来行为。

Magma的应用场景十分广泛，用户可以利用这款AI进行自动下单购物、查询天气等日常操作。此外，它还能够自动控制实体机器人，并在下象棋等活动中为用户提供实时帮助。这种多模态能力使Magma在不同环境中表现出色，能够适应各种复杂任务。

根据官方介绍，Magma特别适合用于AI驱动的助手或机器人，帮助它们更好地理解周围的环境并采取相应的行动。举例来说，它可以指导家用机器人学习如何整理从未见过的物品，或者帮助虚拟助手为用户生成逐步的操作指南。这种特性大大提高了机器人的学习能力和实用性。

Magma模型是VLA（视觉语言动作）系列之一，通过学习海量的公开视觉和语言数据，能够融合语言、空间和时间的智能，从而有效应对现实生活中的复杂任务与挑战。随着人工智能技术的发展，Magma的推出标志着智能助手和机器人技术又向前迈出了一大步。

项目链接:https://microsoft.github.io/Magma/

划重点:

跨模态能力:Magma能够处理图像、视频和文本等多种数据类型，提升智能助手的功能。

智能应用:用户可通过Magma自动下单、查询天气，以及控制实体机器人。

学习适应性:Magma帮助机器人学习新任务，并为虚拟助手生成操作指南，增强了其实用性。

​微软开源全新多模态 AI Agent “Magma”：可自动下单与行为预测 - AI文章