谷歌推機器人控制模型Gemini Robotics，讓機器人像人類一樣思考行動- AI文章

作者：Eve Cole 更新時間：2025-05-19 09:50:02

谷歌DeepMind近日發布了其最新的機器人技術——Gemini Robotics，這一技術標誌著人工智能在物理世界中的實際應用邁出了重要一步。與傳統的家用機器人不同，Gemini Robotics旨在將高級AI技術融入機器人實體，使其能夠在現實世界中執行複雜的任務，甚至超越人類的能力。

Gemini Robotics的核心技術基於Gemini2.0模型，這一模型已經展示了其在處理文本、圖像、音頻和視頻方面的強大能力。通過進一步的技術創新，Gemini Robotics賦予了機器人理解和操作物理空間的能力。這意味著機器人不僅能夠接收並處理各種形式的指令，還能將這些指令轉化為實際的物理動作，從而在家庭、工業等多個領域發揮重要作用。

Gemini Robotics的泛化能力是其最引人注目的特點之一。與只能執行預設程序的傳統機器人不同，Gemini Robotics能夠利用其豐富的世界知識，快速適應新物體、新指令和新環境，並找到有效的解決方案。谷歌的測試數據顯示，Gemini Robotics在綜合泛化基準測試中的表現遠超其他頂尖的視覺-語言-動作模型，顯示出其卓越的適應性和解決問題的能力。

在人機交互方面，Gemini Robotics同樣表現出色。它能夠理解日常口語化的指令，並對指令的變化或環境的變化做出快速反應。此外，Gemini Robotics還能夠在接收到初步指令後，自主完成任務，無需過多的人工干預。這種高度的自主性和靈活性使得Gemini Robotics成為理想的家庭助手，能夠幫助用戶完成各種日常任務。

Gemini Robotics的靈活性不僅體現在其智能上，還體現在其精細動作的執行能力上。無論是摺紙、打包午餐，還是製作精緻的沙拉，Gemini Robotics都能展現出細膩的動作和精準的協調性。這種能力使得Gemini Robotics在需要精細操作的任務中表現出色，為用戶提供高質量的服務。

Gemini Robotics的多形態適應性是其另一大亮點。它能夠適應多種機器人形態，無論是雙臂機器人平台ALOHA2，還是人形機器人Apptronik的Apollo，Gemini Robotics都能輕鬆駕馭。這種廣泛的適應性意味著未來我們可以在不同領域看到搭載Gemini Robotics的智能機器人，為各行各業帶來革命性的變化。

除了Gemini Robotics，谷歌還推出了Gemini Robotics-ER，這一模型更側重於提昇機器人對物理世界的空間理解能力。通過與現有的低級別控制器結合，Gemini Robotics-ER能夠大幅提升Gemini2.0在物體指認和3D檢測等方面的能力，甚至能夠“即時”創造全新的機器人功能。這種創新技術為機器人在復雜環境中的應用提供了更多可能性。

在推動AI技術發展的同時，谷歌也高度重視安全問題。 Gemini Robotics-ER與機器人原有的安全控制器進行交互，確保潛在動作的安全性，並生成合適的響應。此外，谷歌還發布了新的數據集ASIMOV，以評估和提升具身AI和機器人的語義安全性。通過與內外部專家、政策制定者以及責任與安全委員會的合作，谷歌確保Gemini Robotics的發展符合倫理和安全標準。

為了加速Gemini Robotics的落地應用，谷歌已經與多家機器人公司展開合作，包括Apptronik、Agile Robots、Agility Robotics、Boston Dynamics和Enchanted Tools等。這些合作將推動Gemini Robotics在更多領域的應用，為我們的生活和工作帶來更多便利。

谷歌的Gemini Robotics無疑為人工智能和機器人領域注入了新的活力。其強大的多模態理解能力、出色的泛化性、自然的人機交互以及精湛的操作技能，都預示著一個智能機器人時代即將到來。無論是作為家庭助手，還是在工業、醫療等領域的應用，Gemini Robotics都將為我們帶來前所未有的便利和效率。

官方博客：https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/