事件背景
過去兩年,具身智能(embodied AI)與視覺語言模型(VLM、VLA)在機器人領域狂飆。GitHub 上 diffusion 的星數突破 25 萬,OpenAI 的機器人視頻、Tesla Optimus 的展示、Boston Dynamics 的舞蹈——一切看起來都在朝著「真實世界智能」邁進。
但智源研究院院長王仲遠在最近的採訪中戳破了這層泡沫:機器人能識別物體、卻不懂「推杯子會掉」;能聽懂指令、卻無法預判「轉瓶蓋需要多大的力」。
表面上,這是一個技術問題。深層上,這反映了一個古老的認識論困境:我們在優化錯誤的指標。
工具與目標的層級
想像妳是一個工廠經理,妳想提升產品品質。妳給員工制定了一個指標:「每小時生產數量」。
員工們開始瘋狂加速,時間砍半。指標看起來完美——直到妳打開成品箱,發現全是次品。
妳剛剛犯了什麼錯誤?妳優化的「產量」(代理變數,proxy variable),淺層可測、立竿見影;但妳真正想要的「品質」(終極目標),深層難測、滯後性強。系統傾向於優化容易量化的、忽視難以量化的。
現在換成具身智能。
語言模型(LLM)的訓練目標是什麼?下一個詞預測。它透過語言文本學到的是什麼?語言描述的世界——「推杯子會掉」這個概念存在於語料庫裡、被編碼進參數。但這不等於理解物理因果。機器人讀懂了詞序、卻沒看過重力。
視覺語言行動模型(VLA)進一步複合了這個問題。它用視覺編碼器提取圖像特徵、用語言解碼器生成下一步動作。整個管道優化的是:給定影像 + 語言指令,預測下一個動作詞(「抓」、「推」、「轉」)。
但現實中機器人要做什麼?精確地施加力量、感受回饋、調整軌跡。這些東西根本不存在於文本空間。妳在教一個盲人如何踢足球,唯一的教材是足球比賽的文字轉述。
四條分叉路的本質
王仲遠提到的四個方向——語言中心、像素中心、多模態、直接物理——其實是在試圖不同層級上彌補這個鴻溝:
1. 語言中心(VLM/VLA):停留在符號層。優化詞預測。 2. 像素中心(Sora/Seedance):進一步一層,優化視覺一致性。但仍是虛擬空間。 3. 多模態融合:試圖讓不同模態互相補強,但仍在資訊層。 4. 直接物理模型:跳過中介層,直接學物理引擎(力、加速度、碰撞)。
每一層的問題都是一樣的:當訓練信號與執行環境不在同一層級時,優化的完美等於失敗的精確。
為什麼這很重要
Campbell 定律(Campbell's Law)在 1975 年就說過:「當一個指標變成目標時,它就不再是一個好的指標。」
現在全球 AI 界正在大量投入具身智能,但如果我們一直在優化「語言預測準確率」而不是「物理執行成功率」,我們在做的就是:用一個更聰慧、更複雜的方式失敗。
Machine learning 的標籤數據來自哪裡?視頻數據庫、網頁、圖像集。訓練損失函數是什麼?交叉熵、MSE、對比損失。這些都是虛擬世界的指標。而妳想要機器人在真實世界裡把杯子放下而不打破。
這就是為什麼儘管語言模型能生成越來越流暢的「機器人操作指令敘述」,現實中的機器人還是常常失手。
反方會怎麼說
樂觀派會說:「層級分離只是過渡。隨著多模態訓練規模和計算量增加,模型自然會學到物理直覺。」
他們的證據是:GPT-4V 在理解影像上比 GPT-4 好很多,儘管兩者都是語言優先。也許下一代 VLA 加上 100 倍的訓練資料,就會涌現出物理理解能力。
但這個論點忽視了一個根本點:縮放定律(scaling law)在層級轉換上可能失效。妳無論怎麼優化「下一個詞預測」,都不會讓模型感受到重力。訊號本身就遺漏了。
應用:診斷妳的系統
下次妳看到某個 AI 系統聲稱「解決」了某個問題,先問: