新聞中心

EEPW首頁 > 汽車電子 > 牛人業(yè)話 > 別吵了，VLA只是通往世界模型的過渡方案

別吵了，VLA只是通往世界模型的過渡方案

作者：電車曼曼談時間：2026-01-27 來源：

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

25年11月的AI科技日上，小鵬正式推出了第二代VLA架構(gòu)，一句“是VLA,也是世界模型”的表態(tài),標(biāo)志著小鵬圖靈AI自動駕駛算法正式轉(zhuǎn)向了華為、特斯拉主導(dǎo)的世界模型。為了繼承過去一年來在VLA上的營銷成果，同時避免給本土頭號競爭對手華為當(dāng)綠葉，小鵬依然倔強地保持著VLA的宣傳口徑，但在事實上，其第二代VLA基于“感知-行動”閉環(huán)，采用世界模型的V+L->A算法架構(gòu)，已經(jīng)脫離了基于“感知-語言-行動”閉環(huán)的標(biāo)準(zhǔn)V-L-A架構(gòu)。小鵬的轉(zhuǎn)向意味著攪擾了本土自動駕駛行業(yè)半年之久的VLA和世界模型之爭即將走向結(jié)束。那么，放在更大的AI行業(yè)背景下，標(biāo)準(zhǔn)VLA架構(gòu)和世界模型的根本區(qū)別在哪兒，為何頭部智駕企業(yè)紛紛轉(zhuǎn)向世界模型呢？

兩種智能形式

25年11月10日，李飛飛發(fā)表萬字長文-《空間智能是人工智能的下一個前沿》，洋洋灑灑一大篇，將人們對AI的關(guān)注焦點從面向數(shù)字世界的語言模型引向了面向物理世界的世界模型。借用這位在上世紀(jì)八十年代末九十年代因故初移民大美麗的華裔科學(xué)家的言論，“至少對AI而言，世界遠不止于文字。空間智能代表了語言之外的前沿”，語言智能并不能囊括人工智能的所有內(nèi)涵。事實上，根據(jù)業(yè)界共識，存在語言智能、空間智能兩種主要的智能形式，分別對應(yīng)AI之父圖靈七十多年前所講的抽象計算和具身智能兩條發(fā)展路徑。

圖片來源：輝羲智能

從本質(zhì)上講，標(biāo)準(zhǔn)VLA以抽象的語言智能為核心，世界模型則以直觀的空間智能為核心。這種回歸本質(zhì)的洞察讓之前的VLA-世界模型之爭多多少少顯得有些無厘頭，因為，一個很容易就能得出的結(jié)論是，對于自動駕駛而言，其面臨的真實交通場景之復(fù)雜遠非語言模型能夠完全理解和描述，具備空間智能的世界模型才是讓自動駕駛系統(tǒng)能夠超越規(guī)則和文本描述、獲得對物理世界直觀理解的關(guān)鍵。對應(yīng)到人類這個物種智能的發(fā)展史上，駕駛?cè)蝿?wù)更多依賴的是在語言出現(xiàn)之前的幾十億年里發(fā)展出來的具身智能，這是一種比語言智能更基礎(chǔ)、更古老的智能形式，而非文字出現(xiàn)之后的幾千年里才發(fā)展出來的語言智能。

圖片來源：清華大學(xué)

代表語言智能的大語言模型LLM是對信息和思想的高度壓縮和編碼，基本原理是基于“下一個Token預(yù)測”的認(rèn)知生成。作為一種一維序列信號，語言這種描述世界的工具在壓縮和編碼上的損失程度非常大。即便文本大語言模型之后的多模態(tài)大語言模型MLLM在文本數(shù)據(jù)之外接受了大量視頻數(shù)據(jù)的訓(xùn)練，讓它們具備了一些基礎(chǔ)的空間意識，但是，它們在估算距離、方向和尺寸這些關(guān)鍵的空間要素時依然存在非常大的誤差，以至于這類MLLM無法完整表征自動駕駛車輛在其中運行的真實3D物理世界，在跟空間物理世界互動時存在很多局限。

圖片來源：極氪

相較于以語言作為主要表達方式的數(shù)字世界，物理世界遵循的規(guī)則要復(fù)雜得多，有各種各樣的物理定律約束著交通參與者的每一次互動。交通場景中包含各種遵循物理定律和自身動態(tài)行為特性的空間物體，面對跟交通行為密切相關(guān)的所有這些物體的語義、幾何、動態(tài)和物理信息，自動駕駛系統(tǒng)必須通過一種遠比文本一維序列信號復(fù)雜得多的“特殊語言”，或隱式或顯式地建立起對世界本身的深刻理解，內(nèi)嵌包含對三維空間的理解、推理和交互能力的空間智能，才能在三維的世界中安全運行。

維度壓縮與世界的坍塌

從維度的視角，我們很容易就能發(fā)現(xiàn)，語言模型在自動駕駛?cè)蝿?wù)中的根本局限在于試圖以一維序列信號描述中間差著兩個維度的三維物理空間！這種方法不僅在難度上“蜀道難，難于上青天”，在理念上也存在天然的缺陷。

從本質(zhì)上來講，文本語言是一個一維且離散的符號序列，作為大語言模型在自動駕駛中的衍生模型，VLA以大語言模型為核心，通過一維的文本Token來理解和生成對世界的描述。也就是說，在自動駕駛算法中，VLA模型先將來自攝像頭的二維圖像和來自激光雷達的三維點云這些二、三維世界的豐富信息向下降維，翻譯成一維的語言信號，再通過大語言模型進行推理。從二維和三維到一維的轉(zhuǎn)換，不僅帶來了推理延遲的問題，更重要的是，這種降維方式必然面臨嚴(yán)重的損失和失真。

圖片來源：地平線

相較于語言模型這種一維的描述者，世界模型更像是三維世界的模擬者。在本質(zhì)上，自動駕駛車輛行駛的物理世界是三維空間疊加時間維度的連續(xù)存在，世界模型通過無法以自然語言形式表達的特殊語言，在內(nèi)部直接構(gòu)建一個動態(tài)的、包含自車和其它交通參與者幾何、形狀、距離、速度、加速度等物理屬性的世界表征，繞過語言的代理，直接在高維度的連續(xù)狀態(tài)空間中推理和動作。

到這里，我們可以反向運用一下維特根斯坦的那句名言了。這位散盡家財?shù)膫ゴ笳軐W(xué)家說，語言的邊界就是世界的邊界。反過來想就是，對于依賴于語言智能的AI模型而言，其世界的豐富性被死死地限制在了一維語言所能描述的范圍之內(nèi)，而這個精彩的物理世界上存在著多少語言無法精確表達、只可意會不可言傳的微妙細節(jié)呢？

語言智能不可或缺

小孩子才做選擇題，成年人選擇我都要。對自動駕駛系統(tǒng)而言，雖然語言智能存在著諸多缺陷，但它也是不可或缺的。其實，人類駕駛員的優(yōu)越性恰恰在于我們同時擁有語言智能和空間智能這兩種能力，我們既能用語言來思考紅燈停、綠燈行的交通規(guī)則，也能依賴強大的空間智能實現(xiàn)安全的操控。

在一個完整的自動駕駛系統(tǒng)架構(gòu)中，語言智能負(fù)責(zé)高層次任務(wù)規(guī)劃與交互，對司機或乘客以非結(jié)構(gòu)化自然語言給出的指令進行意圖理解和任務(wù)分解，還可以通過文字或語音的方式給出路況解析，增強用戶對自動駕駛系統(tǒng)的信任感。空間智能負(fù)責(zé)具體的環(huán)境感知、精準(zhǔn)定位、行為預(yù)測和動作執(zhí)行，識別各類目標(biāo)、預(yù)測其它交通參與者意圖、避開障礙物、完成加減速和轉(zhuǎn)向等動作。

圖片來源：理想汽車

我們也可以借用具身智能領(lǐng)域的大小腦理論來區(qū)分語言智能和空間智能?；谡Z言模型的大腦負(fù)責(zé)人機交互，在更高層級進行意圖理解、任務(wù)拆解、路線規(guī)劃、目的地變更、場景解釋，基于世界模型的小腦負(fù)責(zé)運動控制，基于對三維空間和時間的理解，預(yù)測各個交通參與者之間的互動如何影響四維空間中的變化和分布，并生成自車的駕駛動作。

總之，語言智能和空間智能是分工協(xié)作而非互相排斥的關(guān)系，其最終的目的都是為了更安全、更高效地完成駕駛?cè)蝿?wù)。

寫在最后

為了實現(xiàn)自動駕駛，我們需要的是與語義、物理、幾何和動態(tài)上都極為復(fù)雜的物理世界進行互動的能力，這種精細且嚴(yán)苛的理解、推理、生成能力遠非今天的大語言模型所能及，這是頭部自動駕駛玩家果斷拋棄以大語言模型為核心的VLA技術(shù)路線的根本原因。不過，語言也是這個三維世界的重要組成部分，要實現(xiàn)高等級自動駕駛，既需要具備感知、推理、規(guī)劃和行動的空間智能，具備高層次抽象表達或描述能力的語言智能也是不可或缺的。不過，對駕駛?cè)蝿?wù)而言，空間智能是主要矛盾，語言智能是次要矛盾，基于這一點，VLA或許只是通向世界模型的中間過渡方案。