人形機(jī)器人的觸覺與語(yǔ)音能力正飛速提升
借助生成式 AI 與智能體 AI,人形機(jī)器人在執(zhí)行各類任務(wù)方面取得顯著進(jìn)步。相關(guān)預(yù)測(cè)顯示,這類系統(tǒng)將在未來(lái)幾年深度融入人類生活。
目前,人形機(jī)器人主要用于電子與汽車工廠、倉(cāng)庫(kù)物流及專業(yè)清潔場(chǎng)景。中國(guó)預(yù)計(jì) 2026 年人形機(jī)器人產(chǎn)量將激增 94%。不久后,它們將進(jìn)入家庭,成為老人陪護(hù)與生活助理。
楷登電子(Cadence)CEO Anirudh Devgan 表示:“機(jī)器人可能是有史以來(lái)最大的產(chǎn)品品類,市場(chǎng)規(guī)模預(yù)計(jì)達(dá)到25 萬(wàn)億美元,而全球 GDP 約為 110 萬(wàn)億美元。如果這一預(yù)測(cè)成真,影響將極為巨大。”
雖然人形機(jī)器人模擬人類外形,但不必完全復(fù)刻成人形態(tài) —— 它們可以像孩童般小巧,甚至只有三根手指。各類感官與對(duì)應(yīng)傳感器都在研發(fā)中,進(jìn)度各不相同:視覺與語(yǔ)言最成熟,嗅覺與味覺最落后,觸覺與聽覺正在快速追趕。
新思科技(Synopsys)產(chǎn)品營(yíng)銷總監(jiān) Marc Swinnen 表示:“自然語(yǔ)言技術(shù)發(fā)展成熟,因?yàn)樗鼞?yīng)用廣泛,機(jī)器人也從中受益。視覺同樣成熟,但面臨與自動(dòng)駕駛類似的挑戰(zhàn):物體識(shí)別絕非易事。觸覺方面,壓力傳感與紋理感知已做得不錯(cuò)。每個(gè)研究人員都會(huì)說(shuō)自己研究的感官最難,但真正難的可能是所有能力協(xié)同工作?!?/p>
所有物理 AI 相關(guān)技術(shù)都需要持續(xù)突破,包括觸覺與壓力感知,但AI 讓機(jī)器人學(xué)習(xí)速度大幅加快。
西門子 EDA 產(chǎn)品負(fù)責(zé)人 Sathishkumar Balasubramanian 稱:“我們一直都有傳感器,能區(qū)分不同觸摸并轉(zhuǎn)換為數(shù)字信號(hào),但不知道如何像人類一樣工作。大模型讓這一切成為可能,它可以成為‘大腦’,驅(qū)動(dòng)語(yǔ)音識(shí)別、觸覺感知、物理動(dòng)作、推理與反應(yīng)。”

圖 視覺識(shí)別系統(tǒng)(英飛凌科技)
觸覺:從工業(yè)機(jī)器人借鑒經(jīng)驗(yàn)
在人形機(jī)器人手部的真實(shí)環(huán)境觸覺交互方面,業(yè)界研究仍然較少,但工業(yè)機(jī)器人的末端執(zhí)行器已有廣泛應(yīng)用。
新譜思(Synaptics)高級(jí)產(chǎn)品營(yíng)銷經(jīng)理 Sam Toba 表示:“工業(yè)機(jī)械臂的應(yīng)用范圍非常廣,相關(guān)技術(shù)可以平移到人形機(jī)器人。”
另一快速發(fā)展的領(lǐng)域是語(yǔ)音識(shí)別與對(duì)話,無(wú)論是機(jī)器人通過(guò)大模型與人交流,還是控制家中智能設(shè)備,需求都在爆發(fā)。
Synaptics 副總裁 John Weil 指出:“語(yǔ)音模型能力與幾年前相比,差距可能高達(dá)100 倍?!?/p>
德州儀器(TI)機(jī)器人與工業(yè)自動(dòng)化總經(jīng)理 Giovanni Campanella 認(rèn)為:觸覺與聽覺是最具挑戰(zhàn)性的感官。相機(jī)原理易于理解,生態(tài)成熟;但聽覺與觸覺的研究與資料極少,卻是客戶最關(guān)注、最想突破的方向。廠商正從單純搭載相機(jī),轉(zhuǎn)向增加多類感官讓機(jī)器人更智能。
英飛凌功率與傳感器系統(tǒng)總裁 Adam White 舉例:中國(guó)機(jī)器人公司正在研發(fā)帶視覺與 AI 的吸塵器,能識(shí)別水漬、地板材質(zhì),用 AI 建圖省電、分析 dust 分布判斷高頻使用區(qū)域。這正是從生成式 AI 走向智能體 AI,再走向物理 AI的過(guò)程。
精度與靈巧操作:人形機(jī)器人的核心挑戰(zhàn)
英偉達(dá)(NVIDIA)機(jī)器人與邊緣 AI 副總裁 Deepu Talla 表示:“物理 AI 與機(jī)器人應(yīng)用對(duì)精度要求極高,可能需要多個(gè) 9 的準(zhǔn)確率。自動(dòng)駕駛可能需要 10 個(gè) 9,手術(shù)機(jī)器人要求更高?!?/p>
簡(jiǎn)單操作包括兩指抓取或吸附,但終極目標(biāo)是通用化、精細(xì)靈巧操作,需要先進(jìn)傳感器、執(zhí)行器與安全實(shí)時(shí)控制。
英偉達(dá)正與 Cadence 合作,將智能體 AI 嵌入物理 AI,結(jié)合芯片 IP 與機(jī)器人仿真庫(kù),縮小機(jī)器人 “從仿真到現(xiàn)實(shí)” 的差距。AI 智能體協(xié)調(diào)虛擬訓(xùn)練、物理模型與大規(guī)模場(chǎng)景仿真,解決復(fù)雜現(xiàn)實(shí)問(wèn)題。
Imagination Technologies 產(chǎn)品總監(jiān) Matthew Bubis 指出:“人形機(jī)器人首先要解決極其復(fù)雜的機(jī)械問(wèn)題,其次要讓 AI 輸出控制這些機(jī)械系統(tǒng)。機(jī)器人同時(shí)面臨 AI 與機(jī)械兩大難題,而汽車只需要解決前者?!?/p>
觸覺技術(shù)詳解
手部感知的核心是接觸,傳感器需要測(cè)量力、剪切力、滑動(dòng)、溫度,通常還集成慣性測(cè)量單元(IMU)。
觸覺傳感包括電容、壓電、光學(xué)、磁學(xué)、電感、電阻等多種方案,各有優(yōu)劣。
Synaptics 的 Sam Toba 表示:“傳感原理相似,但連接芯片的物理傳感器形態(tài)差異很大?!?/p>
所有原始數(shù)據(jù)需要聚合為有效事件?!拔覀兊挠|控芯片運(yùn)行機(jī)器學(xué)習(xí)算法,用于噪聲檢測(cè)、力度感知。電容傳感的最大優(yōu)勢(shì)是速度極快,能快速感知滑動(dòng)、剪切力,防止物體掉落。”
手掌中的 MCU/MPU 負(fù)責(zé)邊緣預(yù)處理,避免過(guò)載主機(jī) CPU。
Synaptics 戰(zhàn)略高級(jí)總監(jiān) Nebu Philips 解釋:“多類型觸覺傳感器的數(shù)據(jù)聚合屬于傳感器融合。最小的網(wǎng)格傳感器僅5×5mm,支持 60 通道?!?/p>
TI 的 Campanella 說(shuō):“手掌可分布多達(dá) 30 個(gè)傳感器,手指中磁學(xué)或電容傳感器形成矩陣,可判斷觸摸位置與力度,并快速反饋給電機(jī)控制,形成閉環(huán)。部分方案在邊緣直接處理,也可通過(guò)高速通信(千兆以上)回傳給機(jī)器人大腦。”
Grinn 創(chuàng)始人 Robert Otr?ba 表示:“人形機(jī)器人不必一定是五指全手,兩根手指甚至一根手指加觸覺即可。我們可以把人類行為轉(zhuǎn)化為機(jī)器人邏輯,用微型芯片靠近傳感端做數(shù)據(jù)采集、預(yù)處理、降噪,減少長(zhǎng)線傳輸干擾。”

圖片來(lái)源:Synaptics
語(yǔ)音與自然交互:聽懂、說(shuō)對(duì)、懂語(yǔ)境
人形機(jī)器人需要實(shí)時(shí)、自然、帶合適口音地傾聽與回應(yīng),但不同語(yǔ)言與方言帶來(lái)挑戰(zhàn)。
Synaptics 的 John Weil 表示:“語(yǔ)音技術(shù)在原理上不難,難點(diǎn)在于范圍界定:用一個(gè)通用模型,還是多個(gè)本地化模型?通用模型體積大、成本高;本地化模型響應(yīng)更快、體驗(yàn)更好?!?/p>
例如在日本,即便模型能聽懂日語(yǔ),用戶仍會(huì)抱怨:“用詞太年輕、不夠禮貌。” 他們希望機(jī)器人聽起來(lái)像 35 歲,而非 18 歲。
模型通常能識(shí)別俚語(yǔ),本質(zhì)是詞語(yǔ)匹配 + 最近鄰算法,通過(guò)檢索增強(qiáng)生成(RAG)在數(shù)據(jù)庫(kù)中匹配并輸出。
語(yǔ)境理解是關(guān)鍵。機(jī)器人需要判斷何時(shí)該說(shuō)話、何時(shí)保持安靜,區(qū)分 “對(duì)它說(shuō)話” 和 “人與人對(duì)話”。
John Weil 說(shuō):“我們?cè)?CES 展示了波束成形麥,設(shè)備不僅能聽聲,還能判斷聲源方向。當(dāng)你走向設(shè)備,它已感知到更強(qiáng)的語(yǔ)境信號(hào)。”
家庭環(huán)境噪音復(fù)雜,機(jī)器人必須區(qū)分人聲與噪音,識(shí)別語(yǔ)音來(lái)源。TI 的 Campanella 表示:“需要優(yōu)秀的信號(hào)鏈、音頻編解碼器、高信噪比,搭配邊緣硬件加速器,讓模型在部署前就學(xué)會(huì)區(qū)分特定人聲?!?/p>
結(jié)論
不同市場(chǎng)對(duì)機(jī)器人、人形機(jī)器人與人機(jī)接口的接受速度不同。
中國(guó)消費(fèi)者極度重視體驗(yàn)與創(chuàng)新,推動(dòng)車載語(yǔ)音、大屏等前沿技術(shù)快速上車。
歐洲相對(duì)保守,更看重安全功能。
目前,人形機(jī)器人的普及度仍低于多關(guān)節(jié)機(jī)器人與協(xié)作機(jī)器人,主要出現(xiàn)在專業(yè)清潔等少數(shù)場(chǎng)景。
新思科技的 Matt Commens 表示:“CES 上已有大量公司嘗試復(fù)刻人類行為,這需要復(fù)雜軟件、多電機(jī)、多傳感器與無(wú)線通信。未來(lái)幾年,我們有望看到更多商用產(chǎn)品走進(jìn)家庭做家務(wù)。”
工業(yè) 4.0 已遍布機(jī)器人,“過(guò)去人做的汽車制造工作,現(xiàn)在都由機(jī)器人完成。我們希望現(xiàn)實(shí)世界里也有像電腦里 AI 智能體一樣的機(jī)器人助手,而這不僅需要軟件,更需要硬件支撐。”








評(píng)論