事件
李飛飛(Fei-Fei Li)在 2026 年 6 月發表文章,指出產業中對「世界模型」(World Model)的定義已陷入混亂。從 Google 的 Genie、NVIDIA 的 Cosmos,到機器人領域的 VLA(Vision-Language-Action)模型,各方都宣稱在做世界模型,卻各說各話。她提出一套新的三分法,試圖為這個快速發展卻缺乏共識的領域建立共同語言。
核心觀察
李飛飛強調的關鍵洞察是:語言並不是世界本身。大型語言模型學的是文字背後的統計規律——「給定一組詞、下一個詞最可能是什麼」。但世界模型學的是不同的東西:空間與時間的因果結構。
當我們說「球掉下來」時,語言模型只學到了詞序的關聯;但真正的世界模型需要理解為什麼球掉下來(重力)、掉落的軌跡會是什麼(拋物線)、撞到地面會發生什麼(反彈或靜止)。這些都不是統計文本就能學會的。
三分法的意義
李飛飛的分類框架在於釐清:
1. 感知世界模型(Perception World Model):學習視覺、聲音等多感官輸入與物理世界的對應關係。Google Genie 主要屬於這類——它學習視頻幀與視覺轉換規律。
2. 動作世界模型(Action World Model):學習「我的行動會導致世界如何改變」——因果介入的模型。機器人的 VLA 模型就在這個維度。NVIDIA Cosmos 也涉及此類。
3. 推理世界模型(Reasoning World Model):學習抽象的因果邏輯、物理定律、社會規則等——能夠在想像空間中進行推理,而不依賴感官輸入。
為什麼這個區分重要?
產業混亂的原因很簡單:不同企業在三個維度上投入不同資源、卻都宣稱做了世界模型。
Google Genie 主要在第一維度(感知),但它的視頻預測能力再強、也無法理解「如果我推動這個門、它會打開」——那需要第二維度的因果干預模型。而 NVIDIA Cosmos 在第一、二維度都有涉獵、但在抽象推理上仍是黑盒。
被吹捧為「下一代 AI」的世界模型、其實是一個分層次、分專業的三頭怪獸。
語言模型的天花板
李飛飛的潛台詞很清楚:純文本訓練的語言模型、在本質上就無法逃脫「統計關聯」的框架。
你給 ChatGPT 看一百萬個關於「球掉下來」的文本,它永遠學不會重力的真實含義——因為它沒有看過球真的掉下來。它只看到了詞的組合。最多它能學到「在人類撰寫的文本中,『球掉下來』這個表述通常出現在什麼文脈」,仗著統計規律模擬對話。
但一個 1 歲嬰兒、看著一個球滾下斜坡、就直接學到了重力。這就是感知世界模型與語言統計的根本差異。
對產業的衝擊
這個澄清很殘酷:許多宣稱即將到來的「通用人工智能」,其實只是在改進文本統計,而不是在構建真正的世界理解。
OpenAI、Anthropic、Meta 投入數十億美元、訓練更大的語言模型,但如果底層框架本質上就無法捕捉世界的因果結構,再大也只是「更好的文本預測機」,而不是真的智能。
反而是那些默默在做機器人視覺、物理模擬、動作規劃的團隊——包括 Google Robotics、Boston Dynamics、OpenAI 的機器人部門——才真正在接近第二、三層維度的世界模型。
NVIDIA、Google 之爭不是「誰的世界模型更好」、而是「誰能最先整合三個維度」。目前沒人真的做到整合。
對個人與企業的啟示
當妳聽到某家公司說「我們正在打造世界模型」時、第一個問題應該是:
- 他們在三個維度中的哪一個投入最深?
- 他們有真實的因果介入數據(如機器人實驗)、還是只有視頻預測?