事件
DeepSeek 在 2025 年初發表 R1 模型、在多項 benchmark 接近 OpenAI o1 表現、但訓練成本僅 $6M(vs OpenAI 估 $80M+)、API 推理價格 $0.55/M output tokens(vs OpenAI o1 $60/M)。
為什麼這是創造性破壞、不是漸進改良
Schumpeter 寫過:真正的創新「不是讓馬車更快、而是發明火車」。DeepSeek 沒有試著讓 transformer 訓練更快——他們重新思考了整個 stack:
- **MoE (Mixture of Experts) 架構**:只啟動需要的參數、推理成本骨折
- **Multi-head latent attention**:壓縮 KV cache、突破記憶體瓶頸
- **FP8 訓練**:硬體成本減半
- **公開 reasoning trace**:讓 fine-tune 不再依賴 OpenAI API
每一個都是 architectural shift、不是 hyperparameter tuning。
為什麼 NVIDIA 一夜跌 17%
如果一個推理任務原本需要 100 顆 H100、現在只需要 4 顆——市場的隱含假設「AI 永遠缺 GPU」立刻崩潰。這不是 NVIDIA 產品變差、是市場重新定價「未來 GPU 需求」。
但 Schumpeter 也說過:創造性破壞不會讓需求消失、會讓需求重組。Jensen Huang 自己回應:「便宜推理會引爆 10 倍 use cases」——這也是 Schumpeter 邏輯。