別急著All-in DeepSeek V4：從「暴力堆算力」到「克制優化」的競爭轉折

當所有對手都在比誰算力最多，贏家改為比誰用最少算力做最多事。

本篇 atom

能力邊界推移(Capability Frontier Shift)

系統的可執行任務範圍會隨著技術升級而擴張。當單個功能疊加成複合功能時，使用者的期望與系統的實際能力會進入新的競爭維度——不再是『能否做 A』，而是『能否同時做 A+B+C』。這個邊界推移往往引發平台重新定義其核心價值主張。

提出者：Clayton Christensen / 破壞式創新理論延伸 (2021)

AI競爭邏輯的轉折：從「暴力堆積」的邊際收益遞減，轉向「精細優化」的新成長曲線

推理鏈 · DNA chain

06 STEPS

原則 · 本篇核心

優化邊界轉移：當某個資源維度（成本、能耗、時間）達到邊界，競爭從「資源堆積」轉向「資源配置方式的創新」。這改變了競爭遊戲的規則，從資本密集變為知識密集、從規模優勢變為創新優勢。

▸ 展開完整 6 步推理鏈（事件 → 觀察 → 模式 → 原則 → 應用 → 反例）

事件
DeepSeek V4用更少算力達到相近或更好性能，打破了業界過去5年「參數越大越好」的共識。
觀察
這不是孤立的工程奇蹟，而是一個更大趨勢的信號：當在某個維度（如算力規模）上的改進開始面臨邊際收益遞減，尋求突破的方式就會轉向優化其他維度（算法結構、工程細節）。
模式
歷史上這樣的轉移一再發生：航空工業從「引擎功率」轉向「氣動設計」、汽車從「排氣量」轉向「燃油效率和變速箱優化」、晶片從「頻率提升」轉向「架構創新和功耗管理」。
原則
優化邊界轉移：當某個資源維度（成本、能耗、時間）達到邊界，競爭從「資源堆積」轉向「資源配置方式的創新」。這改變了競爭遊戲的規則，從資本密集變為知識密集、從規模優勢變為創新優勢。
其他應用
對AI產業的含義：(1)資本優勢不再壟斷競爭格局，創新團隊的優化能力變成關鍵；(2)未來5年的競爭會更多聚焦在算法結構、後訓練策略、推理系統工程，而非單純的參數規模；(3)對投資者而言，應當更重視團隊的工程深度而非算力儲備。
反例 / 限制
但工程優化最終仍有上界。注意力機制、MoE等方法都不是新發明，只是應用更好；優化本身也面臨收益遞減——下一步的突破可能需要全新的訓練範式（如無監督推理、架構根本創新），而不只是當前方案的打磨。

出處：别急着All-in DeepSeek V4，先看看这10位从业者的真心话 · 36氪 · 2026-04-29T17:07:22+00:00

#優化邊界#AI競爭格局#工程優化#邊際收益遞減#DeepSeek#Scaling Law#資本vs創新

事件

2026年4月，DeepSeek發佈V4技術報告。這款模型沒有遵循業界過去5年的主流邏輯——參數越大越好、算力堆積越多越強——而是走了完全相反的路。V4在保持或超越前代性能的同時，將百萬Token長上下文處理的算力需求壓低到前代的27%，KV緩存縮減至10%。

這項進展引發了行業的激烈討論。一方面，技術報告在社群掀起「狂熱集體活動」；另一方面，從業者開始質疑：「強」的定義是什麼？榜單數字漂亮，實際應用呢？

深層邏輯

過去十年，AI的進步基本遵循一條線性軌跡：參數規模擴大 → 算力投入增加 → 性能提升。這被稱為「Scaling Law的暴力美學」。OpenAI、Meta、Google等巨頭都在這個方向上狂奔，形成了一場成本與規模的軍備競賽。

但任何指數曲線都有邊界。當： - 算力成本成為瓶頸（每次翻倍需要的投入指數級上升） - 模型尺寸的邊際收益遞減（參數再多，性能提升幅度變小） - 推理延遲成為實際制約（用戶等不起、成本用不起）

競爭焦點就會發生優化邊界轉移。V4正是這個轉移的信號：

注意力機制重構 — 不是讓模型讀完所有內容，而是教會它「像人一樣快速定位關鍵資訊」

MoE混合專家架構 — 不激活全部參數，而是根據問題類型動態選擇專家子集

後訓練強化 — 不依賴更大的原始數據，而是針對性地補課

推理系統工程 — 優化實際運行時的每個環節（記憶體調度、批處理、硬體利用率）

為什麼這很重要

這個轉折從根本上改變了AI競爭的遊戲規則。

在「暴力堆積」時代，勝者必然是資本最充足的玩家——OpenAI、Google、Meta握著最多的錢和電力。創新空間有限，主要是砸更多資源。

但在「精細優化」時代，對手是： - 算法創新能力（混合專家、注意力設計、訓練策略） - 工程深度（系統優化、推理加速、記憶體管理） - 工程師密度與執行速度

V4的核心威脅不是它「用27%的算力達到相同性能」，而是它證明了：資本不再是唯一的競爭變數。一家資源相對較少的公司，透過優化方法論的突破，可以用較少的資源做出與大廠相當的成果。

現實的冷淡

但新聞標題本身就埋了個伏筆：「別急著All-in」。原因是——榜單只是榜單，工程只是工程。

實際應用中，用戶關心的是：模型的可靠性、對長尾問題的處理、推理成本、實際延遲。一個性能「理論上比較好」但在生產環境中不穩定的模型，對商業應用的價值有限。從業者的「真心話」暗示，V4的紙面優勢和實際價值可能存在落差。

優化邊界轉移是一個長期的、多輪次的過程。V4可能代表了這一輪的創新峰值，但不意味著競爭就此終結——下一輪的對手可能已經在思考如何在V4的基礎上再優化。

Counter View · Munger Inversion

1
「V4的優化是技戰術層面的改進，而非革命性突破。注意力機制、MoE混合專家在業界已有多年研究；成功應用它們不代表找到了新的競爭護城河。」
— 傳統AI研究觀點
2
「「用更少算力做同樣事」最後仍需依賴對硬體、資料、人才的投入。DeepSeek的成本優勢可能只是暫時的——一旦其他大廠採用相同的優化策略，成本優勢就會被抹平，最後還是資本方贏。」
— 資本競爭論
3
「榜單性能和實際可用性是兩回事。V4在基準測試上漂亮，但在長尾問題、邊界情況、多語言支援等方面的表現仍不確定。工程優化對某些場景有幫助，對另外的場景可能無關。」
— 實踐主義視角

優化邊界轉移能否持續創造商業價值？還是終將被更強的基礎創新（如新的訓練算法、新架構）所取代？

▶ 參考來源 (3)

DeepSeek V4 Technical Report
Scaling Laws for Neural Language Models
Mixture of Experts Models

今日練習個人連結· 回想自己的經驗

登入收藏

在你所在的產業或工作中，找一個「資源投入邊際收益遞減」的例子。它目前的優化方向是什麼？競爭對手可能會在哪個新維度上突破？（例：銷售行業是否從「拜訪次數多」開始轉向「客戶洞察和觸達方式精準」？）

💡 把這個練習帶到一天裡 — 下次走在路上、看新聞、跟人聊天時、想想能怎麼套用這個原則。

第 0/1000