谷歌DeepMind近日發布了其最新的機器人技術——Gemini Robotics,這一技術標誌著人工智能在物理世界中的實際應用邁出了重要一步。與傳統的家用機器人不同,Gemini Robotics旨在將高級AI技術融入機器人實體,使其能夠在現實世界中執行複雜的任務,甚至超越人類的能力。
Gemini Robotics的核心技術基於Gemini2.0模型,這一模型已經展示了其在處理文本、圖像、音頻和視頻方面的強大能力。通過進一步的技術創新,Gemini Robotics賦予了機器人理解和操作物理空間的能力。這意味著機器人不僅能夠接收並處理各種形式的指令,還能將這些指令轉化為實際的物理動作,從而在家庭、工業等多個領域發揮重要作用。
Gemini Robotics的泛化能力是其最引人注目的特點之一。與只能執行預設程序的傳統機器人不同,Gemini Robotics能夠利用其豐富的世界知識,快速適應新物體、新指令和新環境,並找到有效的解決方案。谷歌的測試數據顯示,Gemini Robotics在綜合泛化基準測試中的表現遠超其他頂尖的視覺-語言-動作模型,顯示出其卓越的適應性和解決問題的能力。

在人機交互方面,Gemini Robotics同樣表現出色。它能夠理解日常口語化的指令,並對指令的變化或環境的變化做出快速反應。此外,Gemini Robotics還能夠在接收到初步指令後,自主完成任務,無需過多的人工干預。這種高度的自主性和靈活性使得Gemini Robotics成為理想的家庭助手,能夠幫助用戶完成各種日常任務。
Gemini Robotics的靈活性不僅體現在其智能上,還體現在其精細動作的執行能力上。無論是摺紙、打包午餐,還是製作精緻的沙拉,Gemini Robotics都能展現出細膩的動作和精準的協調性。這種能力使得Gemini Robotics在需要精細操作的任務中表現出色,為用戶提供高質量的服務。
Gemini Robotics的多形態適應性是其另一大亮點。它能夠適應多種機器人形態,無論是雙臂機器人平台ALOHA2,還是人形機器人Apptronik的Apollo,Gemini Robotics都能輕鬆駕馭。這種廣泛的適應性意味著未來我們可以在不同領域看到搭載Gemini Robotics的智能機器人,為各行各業帶來革命性的變化。

除了Gemini Robotics,谷歌還推出了Gemini Robotics-ER,這一模型更側重於提昇機器人對物理世界的空間理解能力。通過與現有的低級別控制器結合,Gemini Robotics-ER能夠大幅提升Gemini2.0在物體指認和3D檢測等方面的能力,甚至能夠“即時”創造全新的機器人功能。這種創新技術為機器人在復雜環境中的應用提供了更多可能性。
在推動AI技術發展的同時,谷歌也高度重視安全問題。 Gemini Robotics-ER與機器人原有的安全控制器進行交互,確保潛在動作的安全性,並生成合適的響應。此外,谷歌還發布了新的數據集ASIMOV,以評估和提升具身AI和機器人的語義安全性。通過與內外部專家、政策制定者以及責任與安全委員會的合作,谷歌確保Gemini Robotics的發展符合倫理和安全標準。
為了加速Gemini Robotics的落地應用,谷歌已經與多家機器人公司展開合作,包括Apptronik、Agile Robots、Agility Robotics、Boston Dynamics和Enchanted Tools等。這些合作將推動Gemini Robotics在更多領域的應用,為我們的生活和工作帶來更多便利。
谷歌的Gemini Robotics無疑為人工智能和機器人領域注入了新的活力。其強大的多模態理解能力、出色的泛化性、自然的人機交互以及精湛的操作技能,都預示著一個智能機器人時代即將到來。無論是作為家庭助手,還是在工業、醫療等領域的應用,Gemini Robotics都將為我們帶來前所未有的便利和效率。
官方博客:https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/