事件背景
2026 年 4 月,Anthropic 首次展示 Mythos Preview 模型,卻以資安風險為由拒絕全面開放。公司認為這等級的能力若直接公開,可能被不懷好意的使用者用於開發惡意網路工具。這個決定反映了一個深層困境:強大的 AI 模型本身是道德中立的,風險來自使用方式——但如何讓最強的工具安全地流向市場?
不到三個月後的 6 月,Anthropic 推出 Claude Fable 5 與 Claude Mythos 5。表面上看起來像版本升級;實際上卻是一場治理設計的突破。
核心洞察:同底層、雙套治理
消息一出,市場第一反應是「又發布兩個新模型了」。但 Anthropic 的澄清改變了故事:Fable 5 與 Mythos 5 使用完全相同的底層模型。差異不在於模型參數、訓練資料或架構,而在於治理層——即分類器(Classifiers)與安全護欄(Safeguards)的配置。
這是個精妙的產品設計決策:
1. Mythos 5(面向高信任機構):底層能力全開、最少治理干預、最大靈活性 2. Fable 5(面向大眾市場):相同底層能力、但套上嚴格的分類器與安全護欄、會自動拒絕高風險請求
關鍵是:兩者的能力並未被削弱,只是能力的「可達性」(accessibility)受到治理層的調控。就像同一條高速公路,根據駕駛人的執照等級,系統自動限制可駕駛的時段與路段——道路本身沒變,但誰、何時、怎麼用則透過規則控制。
為什麼這很重要
### 問題 1:能力 vs. 安全的假性二元選擇
傳統的 AI 發布邏輯陷入了困境: - 路線 A(OpenAI 初期策略):發布最強模型給所有人 → 高效率、高風險 - 路線 B(保守派策略):鎖死模型、只服務審查機構 → 低風險、低效率
兩方都默認了一個假設:能力與安全必然權衡。Anthropic 的做法則問:為什麼不能既保留能力、又分層治理?
### 問題 2:誰決定什麼是「危險的」?
在大眾開放的 Fable 5 中,內建的分類器會自動拒絕特定類別的請求(例如寫惡意代碼、製造虛假證件等)。但在 Mythos 5 中,這些請求可能被允許——因為使用者(如安全研究員)需要這種能力來測試防禦機制。
這個設計暗含的邏輯是:風險評估不是絕對的,而是與使用情境相對的。同一能力在不同場景有不同的風險信號——治理層的存在就是去捕捉這種情境的細微差異。
### 問題 3:為什麼不直接削弱模型能力?
Anthropc 沒有選擇「訓練兩個不同大小的模型」,而是用治理層做差異化,背後有三個經濟理由:
1. 成本效率:一個模型 + 兩套治理規則 < 兩個完整模型的訓練與維護成本 2. 能力一致性:使用 Fable 的用戶偶爾升級到 Mythos 時,底層邏輯完全一致,不會有「功能驟變」的學習成本 3. 信號完整性:強模型被削弱會失去作為「能力下界」的信號價值;保持強模型完整、用治理層調控,反而強化了市場的信心
這個決策的歷史位置
回溯 AI 安全爭論的演進:
- **2022-2023**:主流還在問「應該開放 AI 嗎?」(Yes / No 二元論)
- **2023-2024**:開始討論「如何安全開放」(監管框架、審查流程等)
- **2025 年起**:前沿公司開始問「如何在同一技術上實現多層次治理」(Anthropic 的做法代表這個演進方向)
Anthropc 的實驗表明:安全不必透過削弱能力來達成,而是透過智慧的治理層設計。這對整個產業有示範作用——未來的 AI 發布策略可能不再是「一個模型、全市場發布」,而是「一個模型、多套治理規則」。