事件
36氪獨家報導字節 2026 年 AI 四大命題:加速世界模型投入、強化視頻生成、完善代碼 Coding、商業化豆包。其中最值得注意的,不是四個新目標,而是字節團隊對業界的坦誠:「我們在世界模型賽道入場較晚」。
背景:看似無懈可擊的矩陣
字節的 AI 版圖確實令人印象深刻: - Seed 2.0:終於躋身中國大模型第一梯隊 - Seedance 2.0:做到世界 SOTA(最佳)水準 - 豆包:春節後日活 2 億、形成「斷層式領先」的應用侵徹力 - 視頻模型:全球最強 - 代碼能力:正在系統化補強
一名大廠 AI 戰略評價:「沒有明顯短板。」
但正是這個「沒有明顯短板」的敘事,掩蓋了一個更危險的事實:短板不一定是明顯的,它可能是結構性的。
核心洞察:世界模型的戰略身位
世界模型(World Model)不是「下一個推理方向」或「性能提升的 10% 優化」。它代表了大模型研究的範式轉變:
1. 從預測下一個 token → 預測整個世界狀態轉變 - 傳統大模型是「統計文本的下一個單詞」 - 世界模型是「理解物理世界的因果動力學」 - 這不是量變、是質變
2. 從被動應答 → 主動規劃 - 豆包再強、也還是「回答人類問題」 - 世界模型支撐的智能體(Agent)是「自主決策、試錯學習」 - 應用想像空間從「聊天機器人」擴展到「自主機器人」
3. 從企業應用 → 硬體集成 - 字節的豆包是軟體消費應用 - 世界模型是未來機器人、自動駕駛、製造的基礎設施 - 誰掌握世界模型、就掌握了「AI 實體化」的命脈
為什麼「入場晚」很危險
在 AI 研究中,入場時間的成本不是線性的,而是指數級的:
時間優勢 = 數據優勢 = 能力優勢
- Google(Genie 系列)已經在世界模型上積累 2+ 年的數據飛輪
- OpenAI 正在用 o1 的推理能力重新定義「理解世界」的範式
- 特斯拉有真實世界驅動數據(自動駕駛視頻)的獨特護城河
字節的優勢——數據量、計算力、應用場景——在既有比賽中無敵。但如果比賽本身要「換賽場」,之前累積的領先就變成了特異化負資產(你的優化針對的是舊規則)。
這個缺口為什麼不能靠「砸錢補」
字節公開的 2026 年策略是「年底前達到 Google Genie 3 水平」。聽起來像是「趕上」。但實際情況更複雜:
1. 時間差會自我擴大 - Google 不會停在 Genie 3,已在研 Genie 4 - 這不是「誰跑得快」,而是「誰改變遊戲規則的速度快」
2. 數據護城河很難逆轉 - 世界模型需要「真實世界視頻軌跡」的迭代反饋 - 字節有短視頻、直播數據,但不如特斯拉的自駕軌跡那麼「因果清晰」 - 這不是錢能買到的
3. 研究文化的路徑依賴 - Google Brain / DeepMind 在「物理世界建模」上有 10+ 年積累 - 字節的 Seed 團隊強在「統計規律」,不一定強在「因果推理」 - 重建研究文化、比招聘天才慢
為什麼這件事現在被說出來
字節主動承認「入場晚」,說明:
1. 內部已有共識:這不是公開秘密、而是戰略承諾 - 2026 年會有實質投入(可能包括并購、大規模招聘、計算資源傾斜)