語言只是地圖、世界才是疆域：為什麼 GPT 4 還不是真正的 AI

當 Google 跟 NVIDIA 都在宣稱打造「世界模型」，但他們指的根本不是同一件事——這個混亂暴露了 AI 圈最深的盲點：我們用文字訓練出的機器，永遠看不到文字背後的真實世界。

本篇 atom

語言與世界的二元性(Language vs World Duality)

人工智能系統對「文字統計規律」的掌握與對「物理時空規律」的理解是兩套不同的認知框架；前者無法直接推導後者。語言模型擅長文字組合，但不等於理解物體在三維空間中如何運動、因果如何發生。

提出者：Fei-Fei Li (李飛飛) (2026)

世界模型的三層：水面上是感知（看得見），水面下是因果與推理（看不見、需要實驗）

推理鏈 · DNA chain

06 STEPS

原則 · 本篇核心

地圖永遠不等於疆域；符號層的掌握不等於實體層的理解。知識有階層。

▸ 展開完整 6 步推理鏈（事件 → 觀察 → 模式 → 原則 → 應用 → 反例）

事件
Google Genie、NVIDIA Cosmos、機器人 VLA 都自稱做世界模型，定義卻互相矛盾
觀察
混亂源於產業把「感知預測」、「因果介入」、「抽象推理」混為一談
模式
語言統計與世界因果是兩套互不相通的認知框架——大型語言模型無法從文本推導物理定律
原則
地圖永遠不等於疆域；符號層的掌握不等於實體層的理解。知識有階層。
其他應用
評估 AI 公司時，要區分「文本能力」與「世界干預能力」；前者有天花板、後者才是未來
反例 / 限制
但反方會說：語言本身就包含了人類對世界的累積理解，充分大的語言模型就足以「涌現」世界知識，不必另行訓練

Multilateral lens

從不同板塊看這篇

Atomly 自動判斷這篇文章跟哪些 mental model 板塊相關、各從一個 lens 拆解。同一件事、不同視角。

觀察

語言模型學的是文字統計、世界模型學的是時空因果；兩者無法相互推導，需要不同的訓練數據與架構。

原則

能力邊界由數據維度決定；文本只能學統計，要學因果必須有干預或視頻序列。

行動

評估 LLM 廠商時，區分「文本能力」與「世界干預能力」；投資機器人/自動駕駛公司時重視真實世界數據積累。

深入「AI/科技」板塊 →

出處：李飛飛拆解「世界模型」3 大分類，Google、NVIDIA 談的世界模型不是同一件事？ · TechOrange · 2026-06-08T08:57:44+00:00

#AI/科技#世界模型#語言模型#李飛飛#認識論#能力邊界#機器人

事件

李飛飛（Fei-Fei Li）在 2026 年 6 月發表文章，指出產業中對「世界模型」（World Model）的定義已陷入混亂。從 Google 的 Genie、NVIDIA 的 Cosmos，到機器人領域的 VLA（Vision-Language-Action）模型，各方都宣稱在做世界模型，卻各說各話。她提出一套新的三分法，試圖為這個快速發展卻缺乏共識的領域建立共同語言。

核心觀察

李飛飛強調的關鍵洞察是：語言並不是世界本身。大型語言模型學的是文字背後的統計規律——「給定一組詞、下一個詞最可能是什麼」。但世界模型學的是不同的東西：空間與時間的因果結構。

當我們說「球掉下來」時，語言模型只學到了詞序的關聯；但真正的世界模型需要理解為什麼球掉下來（重力）、掉落的軌跡會是什麼（拋物線）、撞到地面會發生什麼（反彈或靜止）。這些都不是統計文本就能學會的。

三分法的意義

李飛飛的分類框架在於釐清：

1. 感知世界模型（Perception World Model）：學習視覺、聲音等多感官輸入與物理世界的對應關係。Google Genie 主要屬於這類——它學習視頻幀與視覺轉換規律。

2. 動作世界模型（Action World Model）：學習「我的行動會導致世界如何改變」——因果介入的模型。機器人的 VLA 模型就在這個維度。NVIDIA Cosmos 也涉及此類。

3. 推理世界模型（Reasoning World Model）：學習抽象的因果邏輯、物理定律、社會規則等——能夠在想像空間中進行推理，而不依賴感官輸入。

為什麼這個區分重要？

產業混亂的原因很簡單：不同企業在三個維度上投入不同資源、卻都宣稱做了世界模型。

Google Genie 主要在第一維度（感知），但它的視頻預測能力再強、也無法理解「如果我推動這個門、它會打開」——那需要第二維度的因果干預模型。而 NVIDIA Cosmos 在第一、二維度都有涉獵、但在抽象推理上仍是黑盒。

被吹捧為「下一代 AI」的世界模型、其實是一個分層次、分專業的三頭怪獸。

語言模型的天花板

李飛飛的潛台詞很清楚：純文本訓練的語言模型、在本質上就無法逃脫「統計關聯」的框架。

你給 ChatGPT 看一百萬個關於「球掉下來」的文本，它永遠學不會重力的真實含義——因為它沒有看過球真的掉下來。它只看到了詞的組合。最多它能學到「在人類撰寫的文本中，『球掉下來』這個表述通常出現在什麼文脈」，仗著統計規律模擬對話。

但一個 1 歲嬰兒、看著一個球滾下斜坡、就直接學到了重力。這就是感知世界模型與語言統計的根本差異。

對產業的衝擊

這個澄清很殘酷：許多宣稱即將到來的「通用人工智能」，其實只是在改進文本統計，而不是在構建真正的世界理解。

OpenAI、Anthropic、Meta 投入數十億美元、訓練更大的語言模型，但如果底層框架本質上就無法捕捉世界的因果結構，再大也只是「更好的文本預測機」，而不是真的智能。

反而是那些默默在做機器人視覺、物理模擬、動作規劃的團隊——包括 Google Robotics、Boston Dynamics、OpenAI 的機器人部門——才真正在接近第二、三層維度的世界模型。

NVIDIA、Google 之爭不是「誰的世界模型更好」、而是「誰能最先整合三個維度」。目前沒人真的做到整合。

對個人與企業的啟示

當妳聽到某家公司說「我們正在打造世界模型」時、第一個問題應該是：

他們在三個維度中的哪一個投入最深？
他們有真實的因果介入數據（如機器人實驗）、還是只有視頻預測？

Counter View · Munger Inversion

1
「更大的語言模型的涌現能力（emergence）正在消除文本與世界理解的邊界；Scaling Law 還沒到頂。」
— OpenAI、Anthropic 內部共識
2
「李飛飛的三分法過度簡化了神經網路的統一性；所有層都依賴相同的參數化表示。」
— 深度學習理論家
3
「人類嬰兒也是通過語言（聽大人說話）來學習因果的，不只是感覺運動；語言本身就包含因果編碼。」
— 認知科學陣營

如果我們能找到一個統一的「表示空間」，讓文本、視頻、動作都可編碼到其中，世界模型的三分法會不會就失效了？

▶ 參考來源 (2)

personImageNet 創辦人、World Labs 執行長
concept — John Searle / Stevan Harnad (1980)

今日練習個人連結· 回想自己的經驗

登入收藏

拿妳最近用過的一個 AI 工具（ChatGPT、Claude、Gemini 等），試著找一個它能做到「看起來理解了因果」的例子（例如解釋物理現象、預測結果）。然後問妳自己：它是真的推導出了因果、還是在複述訓練數據中已有的相似表述？怎樣的實驗能區分這兩者？

💡 把這個練習帶到一天裡 — 下次走在路上、看新聞、跟人聊天時、想想能怎麼套用這個原則。

第 734/1000