东京大学与Alternative Machine公司合作,研发出一款名为Alter3的人形机器人系统,该系统能够将自然语言命令直接映射到机器人的行动。这标志着基于基础模型与机器人系统结合的研究取得了显着进展。 Alter3的后台模型采用GPT-4技术,使其能够完成一系列复杂任务,从简单的自拍到模拟幽灵等复杂行为,展现出巨大的应用潜力。虽然目前仍处于研究阶段,但这项技术为未来机器人技术的发展指明了方向。
日本东京大学的研究人员与Alternative Machine 公司的合作研究取得了新突破,开发出一款能够直接将自然语言命令映射到机器人行动的人形机器人系统Alter3。它的后台模型采用了GPT-4技术,可完成一系列复杂任务,例如自拍或者扮演幽灵等。

这是越来越多基于基础模型与机器人系统相结合的研究成果之一。虽然这些系统还未达到可扩展的商业解决方案,但近年来它们推动了机器人研究的发展并展现出巨大潜力。
Alter3采用GPT-4技术作为后台模型,接收描述动作或机器人需做出反应的情景的自然语言指令。首先,模型使用"代理框架" 规划机器人完成目标所需的一系列行动步骤。其次,通过编码代理,生成机器人执行每个步骤所需的命令。由于GPT-4没有接受Alter3编程命令的训练,因此研究人员使用其上下文学习能力,将其行为适应机器人的API。

因此,prompt 包含命令列表和一组说明如何使用每个命令的示例。然后,模型将每个步骤映射到一个或多个API 命令,以发送给机器人执行。
研究人员添加了功能,使得人类可以提供反馈,例如“将手臂抬高一点”。这些指令会发送给另一个GPT-4代理,对代码进行推理、进行必要的更正并将动作序列返回给机器人。改进后的行动配方和代码被存储在数据库中供将来使用。

研究人员在Alter3上进行了多项测试,包括日常动作,例如自拍和喝茶,以及模仿动作,例如扮演幽灵或蛇。他们还测试了模型应对需要精心规划行动的情况的能力。 GPT-4对人类行为和动作的广泛了解,使得可以为Alter3等人形机器人创建更逼真的行为计划。研究人员的实验还表明,他们能够在机器人中模仿羞耻和喜悦等情感。
划重点:
- Alter3是使用GPT-4技术进行推理的最新人形机器人,能够将自然语言指令直接映射到机器人的行动。
- 研究人员利用GPT-4技术的上下文学习能力,将其行为适应机器人的API,从而使机器人执行所需的一系列行动步骤。
- 增加人类反馈和记忆可以提高Alter3的性能,研究人员的实验还表明,他们能够在机器人中模仿羞耻和喜悦等情感。
Alter3 的成功证明了GPT-4 在机器人控制领域的巨大潜力,为未来更智能、更灵活的机器人系统铺平了道路。 这项研究的突破性进展,预示着人机交互方式将迎来新的变革。