谷歌DeepMind近日发布了其最新的机器人技术——Gemini Robotics,这一技术标志着人工智能在物理世界中的实际应用迈出了重要一步。与传统的家用机器人不同,Gemini Robotics旨在将高级AI技术融入机器人实体,使其能够在现实世界中执行复杂的任务,甚至超越人类的能力。
Gemini Robotics的核心技术基于Gemini2.0模型,这一模型已经展示了其在处理文本、图像、音频和视频方面的强大能力。通过进一步的技术创新,Gemini Robotics赋予了机器人理解和操作物理空间的能力。这意味着机器人不仅能够接收并处理各种形式的指令,还能将这些指令转化为实际的物理动作,从而在家庭、工业等多个领域发挥重要作用。
Gemini Robotics的泛化能力是其最引人注目的特点之一。与只能执行预设程序的传统机器人不同,Gemini Robotics能够利用其丰富的世界知识,快速适应新物体、新指令和新环境,并找到有效的解决方案。谷歌的测试数据显示,Gemini Robotics在综合泛化基准测试中的表现远超其他顶尖的视觉-语言-动作模型,显示出其卓越的适应性和解决问题的能力。

在人机交互方面,Gemini Robotics同样表现出色。它能够理解日常口语化的指令,并对指令的变化或环境的变化做出快速反应。此外,Gemini Robotics还能够在接收到初步指令后,自主完成任务,无需过多的人工干预。这种高度的自主性和灵活性使得Gemini Robotics成为理想的家庭助手,能够帮助用户完成各种日常任务。
Gemini Robotics的灵活性不仅体现在其智能上,还体现在其精细动作的执行能力上。无论是折纸、打包午餐,还是制作精致的沙拉,Gemini Robotics都能展现出细腻的动作和精准的协调性。这种能力使得Gemini Robotics在需要精细操作的任务中表现出色,为用户提供高质量的服务。
Gemini Robotics的多形态适应性是其另一大亮点。它能够适应多种机器人形态,无论是双臂机器人平台ALOHA2,还是人形机器人Apptronik的Apollo,Gemini Robotics都能轻松驾驭。这种广泛的适应性意味着未来我们可以在不同领域看到搭载Gemini Robotics的智能机器人,为各行各业带来革命性的变化。

除了Gemini Robotics,谷歌还推出了Gemini Robotics-ER,这一模型更侧重于提升机器人对物理世界的空间理解能力。通过与现有的低级别控制器结合,Gemini Robotics-ER能够大幅提升Gemini2.0在物体指认和3D检测等方面的能力,甚至能够“即时”创造全新的机器人功能。这种创新技术为机器人在复杂环境中的应用提供了更多可能性。
在推动AI技术发展的同时,谷歌也高度重视安全问题。Gemini Robotics-ER与机器人原有的安全控制器进行交互,确保潜在动作的安全性,并生成合适的响应。此外,谷歌还发布了新的数据集ASIMOV,以评估和提升具身AI和机器人的语义安全性。通过与内外部专家、政策制定者以及责任与安全委员会的合作,谷歌确保Gemini Robotics的发展符合伦理和安全标准。
为了加速Gemini Robotics的落地应用,谷歌已经与多家机器人公司展开合作,包括Apptronik、Agile Robots、Agility Robotics、Boston Dynamics和Enchanted Tools等。这些合作将推动Gemini Robotics在更多领域的应用,为我们的生活和工作带来更多便利。
谷歌的Gemini Robotics无疑为人工智能和机器人领域注入了新的活力。其强大的多模态理解能力、出色的泛化性、自然的人机交互以及精湛的操作技能,都预示着一个智能机器人时代即将到来。无论是作为家庭助手,还是在工业、医疗等领域的应用,Gemini Robotics都将为我们带来前所未有的便利和效率。
官方博客:https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/