新聞中心

EEPW首頁 > 機器人 > 業(yè)界動態(tài) > 波士頓動力機器狗借助谷歌 Gemini AI，現已能讀取儀表與溫度計

波士頓動力機器狗借助谷歌 Gemini AI，現已能讀取儀表與溫度計

—— 谷歌 AI 讓機器人在工業(yè)巡檢中具備儀表讀取能力

作者：時間：2026-04-16 來源：

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

波士頓動力的四足機器人 Spot，如今可在工廠、倉庫等場景精準讀取模擬式溫度計、壓力表等設備。這一能力升級來自谷歌 DeepMind 最新的機器人 AI 模型，旨在提升機器人與物理環(huán)境交互時的具身推理能力。

谷歌 DeepMind 在 4 月 14 日發(fā)布的全新模型Gemini Robotics-ER 1.6，被定位為 “機器人高級推理模型”，可自主規(guī)劃并執(zhí)行任務。該模型讓機器人能精準讀取復雜儀表、通過視鏡觀察罐體與管道內部，實現視覺巡檢能力大幅提升。這一突破是谷歌 DeepMind 與波士頓動力長期合作的成果。

波士頓動力正積極在各類工業(yè)場景測試四足與人形機器人，包括其母公司現代汽車集團的汽車工廠。該公司的機器狗 Spot 已在試點中擔任巡檢員，在廠區(qū)內自主巡查各類設備。這類巡檢任務需要復雜視覺推理，以識別儀表的多指針、液位、刻度、邊界與文字信息。

核心驅動模型

Gemini Robotics-ER 1.6 為機器人提供了智能體視覺（agentic vision），將視覺推理與代碼執(zhí)行能力結合，生成 “視覺草稿本” 用于圖像檢測與處理。該能力最早在 2026 年 1 月的谷歌 Gemini 3.0 Flash 中推出。

據公布數據，智能體視覺讓機器人儀表讀取任務的準確率從舊版Gemini Robotics-ER 1.5的23%，大幅提升至新版1.6的98%。作為對比，Gemini 3.0 Flash 僅達到 **67%** 準確率。

即便不開啟智能體視覺，Gemini Robotics-ER 1.6 基礎版儀表讀取準確率仍可達86%。這是因為模型會通過指向圖像中不同元素的方式處理復雜任務，例如計數、識別關鍵特征。同時，它還具備更強的多視角推理能力，可通過多路攝像頭畫面更全面理解環(huán)境。

谷歌 DeepMind 舉例：在雜亂畫面中，新版模型可準確識別錘子、剪刀、油漆刷、鉗子及各類園藝工具的數量。而舊版 1.5 模型無法準確統(tǒng)計錘子與油漆刷，完全漏掉剪刀，還 “幻覺” 出畫面中不存在的獨輪車。這說明新版模型幻覺問題顯著減少，盡管距離人類級別的環(huán)境理解仍有差距。

谷歌稱，Gemini Robotics-ER 1.6 是迄今最安全的機器人模型，物理安全約束遵從能力大幅提升。它能讓機器人遵守安全指令，在處理液體或物料時做出更安全決策，并能更準確判斷不同場景下對人體的傷害風險，例如兒童將物品插入電源插座的危險。

未來應用

該模型的實際價值，將在機器人廠商與研究人員的實測中得到驗證。目前機器人最高效的場景仍是工廠流水線、倉庫等高度標準化、重復執(zhí)行特定任務的環(huán)境。谷歌等公司認為，新一代 AI 模型能讓機器人成為更靈活的 “自由巡檢員”，在復雜、非結構化的真實環(huán)境中工作。但這也意味著一旦出錯，機器人造成損壞或人身傷害的風險更高。

至少，這一最新模型讓我們向未來又邁近了一步：未來某一天，通用原子國際的 Mark 4 機器人可以掃視房間并準確說出：“這里沒有軟糖！”