事件
2024 年 1 月,曾在「光年之外」創業受挫的曹越創立 Sand.ai,一家視頻生成模型公司。當時業界共識是 Diffusion(擴散)路線將統治視頻生成領域——幾乎沒有人認同他選擇的自回歸(Autoregressive)架構。
曹越在接受採訪時直言:「每一代模型,我們都在押注一個非共識。」
2025 年初,Sand.ai 發布了基於自回歸架構訓練的 Magi-1 模型。隨後,曹越又迅速察覺到「只有畫面是不夠的」,決定探索音畫同出技術。到 2025 年中期,Sand.ai 成為除了 Google VEO 3 之外最早推出音畫同出模型的團隊,且 Magi-1 在 Google DeepMind 的物理智能基準(Physics IQ Benchmark)上長期排名第一。
2025 年 11 月,曹越做出第二個非共識決策:將模型架構從密集網路(Dense)轉向專家混合(MoE)。他坦言,「那個時間點,國內應該幾乎沒有什麼視頻公司在全力推進這件事。」
為什麼自回歸看起來「不對」?
在 2024 年初,Diffusion 模型已經在圖像生成領域(DALL-E、Midjourney、Stable Diffusion)證明了威力。業界的直覺是:既然 Diffusion 在圖像上work,在視頻上也應該work。
Diffusion 的優勢看起來清晰: - 已有成熟的工具鏈和研究基礎 - 多家大公司(OpenAI、Google)都在走這條路 - 市場資金已經熟悉這個敘事
而自回歸路線在 2024 年初看起來是「落伍的」: - 與語言模型(LLM)的自回歸邏輯相同,但視頻的序列長度更長、計算成本更高 - 業界主流觀點認為視頻的高維度特性決定了 Diffusion 更適配 - 投資人的「常識」是 Diffusion = 未來
非共識押注的邏輯
曹越的選擇並非亂賭。自回歸的原理上優勢在於:
1. 因果關係建模:視頻中的每一幀都有明確的前因後果。自回歸天然地建模了「下一幀依賴前面所有幀」的邏輯,而不是像 Diffusion 那樣用「噪聲去除」這個迂迴的隱喻。
2. 可擴展性:語言模型已經證明自回歸可以無限擴展(GPT-2 → GPT-3 → GPT-4)。理論上,自回歸也能應用於視頻,只是當時沒有人做。
3. 長期依賴:視頻中的物理連貫性、物體恆存、因果邏輯都依賴長期記憶。自回歸對長期依賴的建模通常優於 Diffusion。
數據點:市場反應
- **模型性能**:Magi-1 在 Google DeepMind 物理智能基準上長期第一,意味著視頻的物理連貫性優於競品。這正是自回歸架構的優勢領地。
- **融資規模**:「超亿美元融資」表明,市場最終用真實資本驗證了曹越的非共識押注。2024 年初無人看好的路線,到 2025 年已經吸引到一線投資機構。
- **技術窗口**:2025 年 11 月轉向 MoE 的決策,反映曹越持續在做「超前一步」的架構創新。MoE 在語言模型領域已被驗證(Mixtral、GPT-4),但應用到視頻時仍是冷門方向。
非共識押注的風險
即便曹越賭贏了第一步(自回歸 vs Diffusion),這類非共識決策也不是穩賭:
- **時間成本**:如果自回歸在視頻上最終失敗,Sand.ai 就會被歷史遺忘,而 OpenAI / Google 的 Diffusion 方案會佔據市場。
- **資源競爭**:大公司資源充沛,可以同時押注多條路線。小公司非共識押注的代價是「All in」,容錯率為零。
- **市場信號的滯後性**:模型性能好不等於商業成功。Magi-1 在物理智能基準上第一,但最終的視頻生成應用會不會成為消費級產品,還是另一個問題。