波士頓動力機器狗借助谷歌 Gemini AI,現已能讀取儀表與溫度計
波士頓動力的四足機器人 Spot,如今可在工廠、倉庫等場景精準讀取模擬式溫度計、壓力表等設備。這一能力升級來自谷歌 DeepMind 最新的機器人 AI 模型,旨在提升機器人與物理環(huán)境交互時的具身推理能力。
谷歌 DeepMind 在 4 月 14 日發(fā)布的全新模型Gemini Robotics-ER 1.6,被定位為 “機器人高級推理模型”,可自主規(guī)劃并執(zhí)行任務。該模型讓機器人能精準讀取復雜儀表、通過視鏡觀察罐體與管道內部,實現視覺巡檢能力大幅提升。這一突破是谷歌 DeepMind 與波士頓動力長期合作的成果。
波士頓動力正積極在各類工業(yè)場景測試四足與人形機器人,包括其母公司現代汽車集團的汽車工廠。該公司的機器狗 Spot 已在試點中擔任巡檢員,在廠區(qū)內自主巡查各類設備。這類巡檢任務需要復雜視覺推理,以識別儀表的多指針、液位、刻度、邊界與文字信息。
核心驅動模型
Gemini Robotics-ER 1.6 為機器人提供了智能體視覺(agentic vision),將視覺推理與代碼執(zhí)行能力結合,生成 “視覺草稿本” 用于圖像檢測與處理。該能力最早在 2026 年 1 月的谷歌 Gemini 3.0 Flash 中推出。
據公布數據,智能體視覺讓機器人儀表讀取任務的準確率從舊版Gemini Robotics-ER 1.5的23%,大幅提升至新版1.6的98%。作為對比,Gemini 3.0 Flash 僅達到 **67%** 準確率。
即便不開啟智能體視覺,Gemini Robotics-ER 1.6 基礎版儀表讀取準確率仍可達86%。這是因為模型會通過指向圖像中不同元素的方式處理復雜任務,例如計數、識別關鍵特征。同時,它還具備更強的多視角推理能力,可通過多路攝像頭畫面更全面理解環(huán)境。
谷歌 DeepMind 舉例:在雜亂畫面中,新版模型可準確識別錘子、剪刀、油漆刷、鉗子及各類園藝工具的數量。而舊版 1.5 模型無法準確統(tǒng)計錘子與油漆刷,完全漏掉剪刀,還 “幻覺” 出畫面中不存在的獨輪車。這說明新版模型幻覺問題顯著減少,盡管距離人類級別的環(huán)境理解仍有差距。
谷歌稱,Gemini Robotics-ER 1.6 是迄今最安全的機器人模型,物理安全約束遵從能力大幅提升。它能讓機器人遵守安全指令,在處理液體或物料時做出更安全決策,并能更準確判斷不同場景下對人體的傷害風險,例如兒童將物品插入電源插座的危險。
未來應用
該模型的實際價值,將在機器人廠商與研究人員的實測中得到驗證。目前機器人最高效的場景仍是工廠流水線、倉庫等高度標準化、重復執(zhí)行特定任務的環(huán)境。谷歌等公司認為,新一代 AI 模型能讓機器人成為更靈活的 “自由巡檢員”,在復雜、非結構化的真實環(huán)境中工作。但這也意味著一旦出錯,機器人造成損壞或人身傷害的風險更高。
至少,這一最新模型讓我們向未來又邁近了一步:未來某一天,通用原子國際的 Mark 4 機器人可以掃視房間并準確說出:“這里沒有軟糖!”












評論