近日,微软在其官网正式开源了一款名为“Magma”的多模态AI Agent基础模型。这款新型人工智能具有跨越数字和物理世界的能力,能够同时处理图像、视频、文本等多种数据类型。与传统的AI助手相比,Magma的独特之处在于其心理预测功能,使其能够更加准确地理解视频中人物或物体的意图及未来行为。

Magma的应用场景十分广泛,用户可以利用这款AI进行自动下单购物、查询天气等日常操作。此外,它还能够自动控制实体机器人,并在下象棋等活动中为用户提供实时帮助。这种多模态能力使Magma在不同环境中表现出色,能够适应各种复杂任务。
根据官方介绍,Magma特别适合用于AI驱动的助手或机器人,帮助它们更好地理解周围的环境并采取相应的行动。举例来说,它可以指导家用机器人学习如何整理从未见过的物品,或者帮助虚拟助手为用户生成逐步的操作指南。这种特性大大提高了机器人的学习能力和实用性。
Magma模型是VLA(视觉语言动作)系列之一,通过学习海量的公开视觉和语言数据,能够融合语言、空间和时间的智能,从而有效应对现实生活中的复杂任务与挑战。随着人工智能技术的发展,Magma的推出标志着智能助手和机器人技术又向前迈出了一大步。
项目链接:https://microsoft.github.io/Magma/
划重点:
跨模态能力:Magma能够处理图像、视频和文本等多种数据类型,提升智能助手的功能。
智能应用:用户可通过Magma自动下单、查询天气,以及控制实体机器人。
学习适应性:Magma帮助机器人学习新任务,并为虚拟助手生成操作指南,增强了其实用性。