事件背景
2026 年 6 月,Anthropic 執行長 Dario Amodei 發表長文〈Policy on the AI Exponential〉,對外宣布公司的政策立場重大轉向。這個轉向不是朝向「更放鬆監管」,而是相反——從支持「資訊揭露與透明化」轉向支持「政府有權事前阻止 AI 系統上線」。
這個立場轉變之所以值得注意,不只是因為來自業界巨頭的示好,而是它揭露了一個技術系統的臨界點:當風險增長速率超過人類應對能力時,自願性透明化會失效。
Amodei 的邏輯轉換
Amodei 在文中坦言,過去幾年 Anthropic 支持的政策立場是「讓模型開發商揭露安全程序、測試結果與重大安全事件」。這個策略的邏輯很清楚:如果政府、社會與科學界能提早看到風險,就有時間應對。
但 Amodei 現在認為,這個假設不再成立。他的轉折點是一個具體的技術現象:Anthropic 的前沿模型 Claude Mythos Preview 已能對網路安全帶來「真實衝擊」,包括可能影響金融體系、關鍵基礎設施與國家安全。
這裡的關鍵詞是「真實」。不是理論風險、不是推測,而是實驗室已經驗證的能力。
為什麼透明化變得不夠
在指數增長的系統中,「看見風險」和「應對風險」之間的時間差會被指數函數放大。假設:
- **第一階段**(2023-2024):AI 能力在消費應用範疇,風險主要是偏見、幻覺、濫用。透明化足夠,因為發現問題、修正問題、部署修正版的週期是「幾個月」。
- **第二階段**(2025-2026):AI 能力跨入金融、醫療、基礎設施控制層。風險不再是「模型說錯話」,而是「模型的決策直接傷害系統」。發現問題的速度沒變,但修正的難度從「調整參數」變成「重新評估整個系統架構」。週期變成「幾年」。
- **第三階段**(2027+):Amodei 預期生物風險、自主性風險會接踵而至。此時,發現問題到應對問題的時間差已經無法接受——因為傷害已發生。
在這個邏輯下,事後透明化變成「事後驗屍」。政府需要的不是死亡報告,而是「在患者進手術室前就檢查他的健康狀況」——也就是事前審查。
這裡的博弈論視角
從博弈論來看,Amodei 的立場轉變揭露了一個協調遊戲的結構破裂:
過去的均衡(2023-2024): - 開發商:「我們透明揭露,建立信任」 - 政府:「感謝透明,我們監視風險」 - 公眾:「至少他們在說實話」
這個均衡之所以成立,是因為 AI 的風險還相對可控——即使模型出錯,後果是有限的。
新均衡的威脅(2026+): - 開發商 A:「我透明揭露風險」 - 開發商 B:「我隱瞞風險、搶先部署」 - 結果:B 獲益(市場先發優勢),A 遵守規則但被懲罰
這就是囚徒困境的經典形式。當風險足夠高、收益足夠大時,單方面遵守「自願透明化」會被背叛者淘汰。
Amodei 的策略轉換正是為了打破這個困境:不再依賴「開發商自願透明」,而是要求「政府有權強制審查並否決不安全的部署」。這樣就不會出現「遵守規則反而吃虧」的情況。
能力邊界 vs 風險邊界的分岔
這裡有一個容易被忽視的細節:Amodei 說的不是「AI 能力變強了、所以要監管」。他說的是「風險增長速率超過了人類應對能力」。
這是兩個不同的命題:
- 命題 A:「AI 變強」→ 邏輯跳躍到「所以要監管」(太簡單、大多人這樣想)
- 命題 B:「風險增長速率 > 應對速率」→ 邏輯推導出「事後透明化失效」→ 「需要事前審查」(更嚴謹、更難反駁)
Amodei 用的是命題 B。這意味著,即使 AI 能力在某些應用上已經達到飽和,如果風險仍在指數增長,監管立場仍需轉變。