世界模型困局：為什麼具身智能背誦了語言卻看不見物理

機器人能讀懂「推杯子會掉」這句話、卻推掉了杯子。當我們用語言模型訓練機器人時、優化的是詞序準確性、而非物理直覺——這是一場目標層級的戰爭。

本篇 atom

工具與目標的層級錯位(Hierarchy Mismatch Between Tool and Goal)

當系統優化的目標（代理變數）與實際想解決的問題（終極目標）處於不同層級、會產生以工具成功掩蓋目標失敗的現象。語言模型在文本空間預測準確、不代表理解物理世界因果；視覺生成模型生成逼真影像、不代表能在真實環境執行動作。

提出者：Goodhart & Musgrave（via Campbell's Law） (1975)

具身智能的層級結構——冰山上的語言流暢、冰山下的物理失敗

推理鏈 · DNA chain

06 STEPS

原則 · 本篇核心

Campbell 定律——指標變成目標時失效；Goodhart 法則——所有代理都會崩壞

▸ 展開完整 6 步推理鏈（事件 → 觀察 → 模式 → 原則 → 應用 → 反例）

事件
具身智能模型（VLA）在文本層表現優異，但在真實環境失手率仍高——能說懂不能做懂
觀察
訓練信號（詞預測、影像生成）與執行環境（物理世界）存在層級錯位
模式
系統傾向優化易量化的代理變數，忽視難測的終極目標；當兩者不一致時、優化信號反而掩蓋目標失敗
原則
Campbell 定律——指標變成目標時失效；Goodhart 法則——所有代理都會崩壞
其他應用
企業優化「點擊率」忽視「留存」、醫療優化「手術數量」忽視「治癒率」、教育優化「升學率」忽視「理解力」
反例 / 限制
但反方會說：縮放定律可能拯救層級錯位——充足的資料與計算會讓模型自發涌現物理直覺、無需重新設計

Multilateral lens

從不同板塊看這篇

Atomly 自動判斷這篇文章跟哪些 mental model 板塊相關、各從一個 lens 拆解。同一件事、不同視角。

觀察

VLA 用視覺編碼器 + 語言解碼器、訓練目標是文本層「下一個動作詞」、但執行需要連續物理控制。

原則

架構的訓練信號層級決定了能學到的最高能力層；跨層級泛化在標籤稀疏時會徹底失敗。

行動

評估新的具身 AI 模型時、先問：訓練資料是符號層、影像層還是物理層？層級越低（物理越近）越有實戰潛力。

深入「AI/科技」板塊 →

#AI/科技#具身智能#世界模型#層級錯位#Campbell定律#機器人#訓練目標

事件背景

過去兩年，具身智能（embodied AI）與視覺語言模型（VLM、VLA）在機器人領域狂飆。GitHub 上 diffusion 的星數突破 25 萬，OpenAI 的機器人視頻、Tesla Optimus 的展示、Boston Dynamics 的舞蹈——一切看起來都在朝著「真實世界智能」邁進。

但智源研究院院長王仲遠在最近的採訪中戳破了這層泡沫：機器人能識別物體、卻不懂「推杯子會掉」；能聽懂指令、卻無法預判「轉瓶蓋需要多大的力」。

表面上，這是一個技術問題。深層上，這反映了一個古老的認識論困境：我們在優化錯誤的指標。

工具與目標的層級

想像妳是一個工廠經理，妳想提升產品品質。妳給員工制定了一個指標：「每小時生產數量」。

員工們開始瘋狂加速，時間砍半。指標看起來完美——直到妳打開成品箱，發現全是次品。

妳剛剛犯了什麼錯誤？妳優化的「產量」（代理變數，proxy variable），淺層可測、立竿見影；但妳真正想要的「品質」（終極目標），深層難測、滯後性強。系統傾向於優化容易量化的、忽視難以量化的。

現在換成具身智能。

語言模型（LLM）的訓練目標是什麼？下一個詞預測。它透過語言文本學到的是什麼？語言描述的世界——「推杯子會掉」這個概念存在於語料庫裡、被編碼進參數。但這不等於理解物理因果。機器人讀懂了詞序、卻沒看過重力。

視覺語言行動模型（VLA）進一步複合了這個問題。它用視覺編碼器提取圖像特徵、用語言解碼器生成下一步動作。整個管道優化的是：給定影像 + 語言指令，預測下一個動作詞（「抓」、「推」、「轉」）。

但現實中機器人要做什麼？精確地施加力量、感受回饋、調整軌跡。這些東西根本不存在於文本空間。妳在教一個盲人如何踢足球，唯一的教材是足球比賽的文字轉述。

四條分叉路的本質

王仲遠提到的四個方向——語言中心、像素中心、多模態、直接物理——其實是在試圖不同層級上彌補這個鴻溝：

1. 語言中心（VLM/VLA）：停留在符號層。優化詞預測。 2. 像素中心（Sora/Seedance）：進一步一層，優化視覺一致性。但仍是虛擬空間。 3. 多模態融合：試圖讓不同模態互相補強，但仍在資訊層。 4. 直接物理模型：跳過中介層，直接學物理引擎（力、加速度、碰撞）。

每一層的問題都是一樣的：當訓練信號與執行環境不在同一層級時，優化的完美等於失敗的精確。

為什麼這很重要

Campbell 定律（Campbell's Law）在 1975 年就說過：「當一個指標變成目標時，它就不再是一個好的指標。」

現在全球 AI 界正在大量投入具身智能，但如果我們一直在優化「語言預測準確率」而不是「物理執行成功率」，我們在做的就是：用一個更聰慧、更複雜的方式失敗。

Machine learning 的標籤數據來自哪裡？視頻數據庫、網頁、圖像集。訓練損失函數是什麼？交叉熵、MSE、對比損失。這些都是虛擬世界的指標。而妳想要機器人在真實世界裡把杯子放下而不打破。

這就是為什麼儘管語言模型能生成越來越流暢的「機器人操作指令敘述」，現實中的機器人還是常常失手。

反方會怎麼說

樂觀派會說：「層級分離只是過渡。隨著多模態訓練規模和計算量增加，模型自然會學到物理直覺。」

他們的證據是：GPT-4V 在理解影像上比 GPT-4 好很多，儘管兩者都是語言優先。也許下一代 VLA 加上 100 倍的訓練資料，就會涌現出物理理解能力。

但這個論點忽視了一個根本點：縮放定律（scaling law）在層級轉換上可能失效。妳無論怎麼優化「下一個詞預測」，都不會讓模型感受到重力。訊號本身就遺漏了。

應用：診斷妳的系統

下次妳看到某個 AI 系統聲稱「解決」了某個問題，先問：

Counter View · Munger Inversion

1
「多模態預訓練（視覺 + 文本 + 音頻）會自然涌現物理直覺、就像 LLM 涌現了邏輯推理能力」
— 深度學習樂觀派
2
「真實機器人資料蒐集成本太高、應該優先用模擬器 + 域轉移；文本層訓練是必要的中間步驟」
— 實踐派研究者

如果 scaling law 在層級轉換上確實失效、那麼機器人智能的下一個突破不會來自更大的模型、而是來自什麼？真實環境互動資料的規模突破？新型感測硬體？

▶ 參考來源 (3)

paperGoodhart's Law and its Failures — Musgrave (1981)
bookThe Measurement and Evaluation of Library Services — Campbell, Donald T. (1975)
interview硬氪專訪 | 智源研究院院長王仲遠 (2026)

今日練習跨域遷移· 想另一個領域的例子

登入收藏

找一個妳日常接觸的系統（企業、學校、醫療、政府），它在優化什麼指標（代理變數）？這個指標跟它真正想達成的目標（終極目標）有沒有層級錯位？說明錯位如何導致了實際失敗。

💡 把這個練習帶到一天裡 — 下次走在路上、看新聞、跟人聊天時、想想能怎麼套用這個原則。

第 76/978