視頻世界模型：曹越為什麼押注自回歸而非擴散？

當所有人都搶著複製 Diffusion 擴散模型時，Sand.ai 的創始人曹越反向選擇了「沒人看好」的自回歸路線——3 個月後，他的模型在 Google 物理智能基準上反超群雄。這背後的賭局邏輯是什麼？

本篇 atom

非共識押注(Non-Consensus Bet)

在技術演進的關鍵節點，大多數參與者選擇當前被驗證的路線時，少數創新者刻意選擇冷門但原理上更優的方向；這些賭注的贏家往往在 3-5 年後重定義該領域的標準。

提出者：Naval Ravikant / Peter Thiel（非共識思維框架） (2015)

視頻架構的選擇光譜：Diffusion（共識邊）與自回歸（非共識邊）

推理鏈 · DNA chain

06 STEPS

原則 · 本篇核心

非共識但正確的押注，來自對底層因果關係的深度理解（非共識押注）

▸ 展開完整 6 步推理鏈（事件 → 觀察 → 模式 → 原則 → 應用 → 反例）

事件
Sand.ai 在所有人都選擇 Diffusion 時，獨自押注自回歸架構做視頻生成
觀察
6 個月後，Magi-1 在 Google 物理智能基準上排名第一，打臉當初的「共識」
模式
市場的短期共識往往基於「已驗證路線的外推」，而非「問題的第一性原理」
原則
非共識但正確的押注，來自對底層因果關係的深度理解（非共識押注）
其他應用
Windows vs GUI 共識、亞馬遜虧損 vs 盈利共識、特斯拉垂直整合 vs 外包共識，都是領導者讀懂第一性原理、反向押注被忽視路線
反例 / 限制
非共識押注的倖存者偏差極高——無數賭錯方向的小公司已死，只有贏家被記住

Multilateral lens

從不同板塊看這篇

Atomly 自動判斷這篇文章跟哪些 mental model 板塊相關、各從一個 lens 拆解。同一件事、不同視角。

觀察

自回歸架構在視頻上的優勢在於對逐幀因果關係的原生建模，而 Diffusion 是用去噪過程迂迴逼近；Magi-1 的物理智能排名第一驗證了這個優勢。

原則

架構選擇決定能力邊界；因果性更強的架構在涉及物理連貫性、長期依賴的任務上天然領先；架構是不可後補的一級決策。

行動

評估 AI 模型公司時，追蹤其架構承諾（是否基於第一性原理）而非單純比較當期性能指標；架構優勢會在 12-24 個月後體現為規模優勢。

深入「AI/科技」板塊 →

出處：独家｜获超亿美元融资，Sand.ai 曹越：为什么视频是通往世界模型最重要的路径 · 36氪 · 2026-06-29T08:04:11+00:00

#非共識押注#策略決策#Sand.ai#自回歸#第一性原理#視頻生成#架構選擇

事件

2024 年 1 月，曾在「光年之外」創業受挫的曹越創立 Sand.ai，一家視頻生成模型公司。當時業界共識是 Diffusion（擴散）路線將統治視頻生成領域——幾乎沒有人認同他選擇的自回歸（Autoregressive）架構。

曹越在接受採訪時直言：「每一代模型，我們都在押注一個非共識。」

2025 年初，Sand.ai 發布了基於自回歸架構訓練的 Magi-1 模型。隨後，曹越又迅速察覺到「只有畫面是不夠的」，決定探索音畫同出技術。到 2025 年中期，Sand.ai 成為除了 Google VEO 3 之外最早推出音畫同出模型的團隊，且 Magi-1 在 Google DeepMind 的物理智能基準（Physics IQ Benchmark）上長期排名第一。

2025 年 11 月，曹越做出第二個非共識決策：將模型架構從密集網路（Dense）轉向專家混合（MoE）。他坦言，「那個時間點，國內應該幾乎沒有什麼視頻公司在全力推進這件事。」

為什麼自回歸看起來「不對」？

在 2024 年初，Diffusion 模型已經在圖像生成領域（DALL-E、Midjourney、Stable Diffusion）證明了威力。業界的直覺是：既然 Diffusion 在圖像上work，在視頻上也應該work。

Diffusion 的優勢看起來清晰： - 已有成熟的工具鏈和研究基礎 - 多家大公司（OpenAI、Google）都在走這條路 - 市場資金已經熟悉這個敘事

而自回歸路線在 2024 年初看起來是「落伍的」： - 與語言模型（LLM）的自回歸邏輯相同，但視頻的序列長度更長、計算成本更高 - 業界主流觀點認為視頻的高維度特性決定了 Diffusion 更適配 - 投資人的「常識」是 Diffusion = 未來

非共識押注的邏輯

曹越的選擇並非亂賭。自回歸的原理上優勢在於：

1. 因果關係建模：視頻中的每一幀都有明確的前因後果。自回歸天然地建模了「下一幀依賴前面所有幀」的邏輯，而不是像 Diffusion 那樣用「噪聲去除」這個迂迴的隱喻。

2. 可擴展性：語言模型已經證明自回歸可以無限擴展（GPT-2 → GPT-3 → GPT-4）。理論上，自回歸也能應用於視頻，只是當時沒有人做。

3. 長期依賴：視頻中的物理連貫性、物體恆存、因果邏輯都依賴長期記憶。自回歸對長期依賴的建模通常優於 Diffusion。

數據點：市場反應

**模型性能**：Magi-1 在 Google DeepMind 物理智能基準上長期第一，意味著視頻的物理連貫性優於競品。這正是自回歸架構的優勢領地。

**融資規模**：「超亿美元融資」表明，市場最終用真實資本驗證了曹越的非共識押注。2024 年初無人看好的路線，到 2025 年已經吸引到一線投資機構。

**技術窗口**：2025 年 11 月轉向 MoE 的決策，反映曹越持續在做「超前一步」的架構創新。MoE 在語言模型領域已被驗證（Mixtral、GPT-4），但應用到視頻時仍是冷門方向。

非共識押注的風險

即便曹越賭贏了第一步（自回歸 vs Diffusion），這類非共識決策也不是穩賭：

**時間成本**：如果自回歸在視頻上最終失敗，Sand.ai 就會被歷史遺忘，而 OpenAI / Google 的 Diffusion 方案會佔據市場。

**資源競爭**：大公司資源充沛，可以同時押注多條路線。小公司非共識押注的代價是「All in」，容錯率為零。

**市場信號的滯後性**：模型性能好不等於商業成功。Magi-1 在物理智能基準上第一，但最終的視頻生成應用會不會成為消費級產品，還是另一個問題。

為什麼這個原則跨越 30 年

Counter View · Munger Inversion

1
「Diffusion 路線也能做出優質視頻，只是當時的實現方案不夠好；Sand.ai 的勝利可能是執行力而非架構優勢」
— 業界評論者
2
「自回歸在視頻上的成本仍然遠高於 Diffusion，長期商用時會被成本優勢的 Diffusion 方案反超」
— 成本分析論點
3
「非共識押注的倖存者偏差極高，被報導的都是贏家；無數小公司押注了『非共識』方向但已死亡」
— 統計論點

如果 Diffusion 技術路線在未來 2-3 年內透過演算法創新也達到自回歸的因果建模能力，Sand.ai 的「架構優勢」還能維持多久？非共識的優勢是永久的還是時間性的？

▶ 參考來源 (3)

book從 0 到 1：開創事業的秘密課程 — Peter Thiel (2014)
concept第一性原理（First Principles）
researchPhysics IQ Benchmark — Google DeepMind

今日練習跨域遷移· 想另一個領域的例子

登入收藏

在妳的行業或工作領域中，找出當前市場的一個『共識假設』（例如『AI 應該追求參數量越大越好』或『視頻應該用 Diffusion』），然後問：這個共識是基於『已驗證的現象』還是『類比推理』？如果是後者，用第一性原理重新推導一遍，看看有沒有發現市場忽視的『非共識』方向。寫 5 句話描述。

💡 把這個練習帶到一天裡 — 下次走在路上、看新聞、跟人聊天時、想想能怎麼套用這個原則。

第 15/994