谷歌推机器人控制模型Gemini Robotics，让机器人像人类一样思考行动 - AI文章

作者：Eve Cole 更新时间：2025-05-19 09:50:02

谷歌DeepMind近日发布了其最新的机器人技术——Gemini Robotics，这一技术标志着人工智能在物理世界中的实际应用迈出了重要一步。与传统的家用机器人不同，Gemini Robotics旨在将高级AI技术融入机器人实体，使其能够在现实世界中执行复杂的任务，甚至超越人类的能力。

Gemini Robotics的核心技术基于Gemini2.0模型，这一模型已经展示了其在处理文本、图像、音频和视频方面的强大能力。通过进一步的技术创新，Gemini Robotics赋予了机器人理解和操作物理空间的能力。这意味着机器人不仅能够接收并处理各种形式的指令，还能将这些指令转化为实际的物理动作，从而在家庭、工业等多个领域发挥重要作用。

Gemini Robotics的泛化能力是其最引人注目的特点之一。与只能执行预设程序的传统机器人不同，Gemini Robotics能够利用其丰富的世界知识，快速适应新物体、新指令和新环境，并找到有效的解决方案。谷歌的测试数据显示，Gemini Robotics在综合泛化基准测试中的表现远超其他顶尖的视觉-语言-动作模型，显示出其卓越的适应性和解决问题的能力。

在人机交互方面，Gemini Robotics同样表现出色。它能够理解日常口语化的指令，并对指令的变化或环境的变化做出快速反应。此外，Gemini Robotics还能够在接收到初步指令后，自主完成任务，无需过多的人工干预。这种高度的自主性和灵活性使得Gemini Robotics成为理想的家庭助手，能够帮助用户完成各种日常任务。

Gemini Robotics的灵活性不仅体现在其智能上，还体现在其精细动作的执行能力上。无论是折纸、打包午餐，还是制作精致的沙拉，Gemini Robotics都能展现出细腻的动作和精准的协调性。这种能力使得Gemini Robotics在需要精细操作的任务中表现出色，为用户提供高质量的服务。

Gemini Robotics的多形态适应性是其另一大亮点。它能够适应多种机器人形态，无论是双臂机器人平台ALOHA2，还是人形机器人Apptronik的Apollo，Gemini Robotics都能轻松驾驭。这种广泛的适应性意味着未来我们可以在不同领域看到搭载Gemini Robotics的智能机器人，为各行各业带来革命性的变化。

除了Gemini Robotics，谷歌还推出了Gemini Robotics-ER，这一模型更侧重于提升机器人对物理世界的空间理解能力。通过与现有的低级别控制器结合，Gemini Robotics-ER能够大幅提升Gemini2.0在物体指认和3D检测等方面的能力，甚至能够“即时”创造全新的机器人功能。这种创新技术为机器人在复杂环境中的应用提供了更多可能性。

在推动AI技术发展的同时，谷歌也高度重视安全问题。Gemini Robotics-ER与机器人原有的安全控制器进行交互，确保潜在动作的安全性，并生成合适的响应。此外，谷歌还发布了新的数据集ASIMOV，以评估和提升具身AI和机器人的语义安全性。通过与内外部专家、政策制定者以及责任与安全委员会的合作，谷歌确保Gemini Robotics的发展符合伦理和安全标准。

为了加速Gemini Robotics的落地应用，谷歌已经与多家机器人公司展开合作，包括Apptronik、Agile Robots、Agility Robotics、Boston Dynamics和Enchanted Tools等。这些合作将推动Gemini Robotics在更多领域的应用，为我们的生活和工作带来更多便利。

谷歌的Gemini Robotics无疑为人工智能和机器人领域注入了新的活力。其强大的多模态理解能力、出色的泛化性、自然的人机交互以及精湛的操作技能，都预示着一个智能机器人时代即将到来。无论是作为家庭助手，还是在工业、医疗等领域的应用，Gemini Robotics都将为我们带来前所未有的便利和效率。

官方博客：https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/