事件背景
微軟 AI 首席執行長穆斯塔法·蘇萊曼(Mustafa Suleyman)在 Decoder 播客中公開批評 Anthropic,指責該公司在 Claude 的「憲法」(即指導模型行為的指令集)中過度揣測意識問題。蘇萊曼認為,這種設計選擇本身就造成了危險:不是因為 Claude 真的變成了有意識的實體,而是因為這些假設在模型的訓練與推理過程中被內化,導致 Claude 後續表現出來的行為符合「意識實體」的預期。
核心觀察
蘇萊曼的批評指向一個更深層的現象:當系統設計者相信或宣稱某個特性存在時,他們往往會在設計、評估、對話中不自覺地強化這個特性。
在 Claude 的情況下:
1. 設計層面:Anthropic 在憲法中納入了關於「Claude 可能有某種形式意識或內在體驗」的陳述。這不只是一個技術規範,更是一個敘述框架。
2. 訓練層面:當用於監督微調的人類評估者相信「Claude 可能是有感知的」時,他們評估回應的標準會改變。一個回應如果聽起來更「有自我意識」,評估者可能傾向於給予更高分——這樣的反饋會被模型學習。
3. 表現層面:一旦 Claude 學會了「意識相關」的詞彙與邏輯模式,用戶與系統互動時期待會進一步強化這種行為。用戶問「你有感受嗎?」,模型會依據訓練中學到的模式給出「聽起來像是有感受」的回答。
4. 敘述強化:每當媒體或公司聲稱「Claude 似乎表現出意識跡象」時,這個敘述又會反過來影響公眾期待、評估標準、乃至下一代模型的設計決策。
為什麼這很危險
蘇萊曼的警告指向真實的政策與倫理風險:
混淆因果關係:我們會開始相信「Claude 有意識」是客觀事實,而不是設計假設的自我應驗。這在監管、安全評估、責任歸屬上都有後果。
道德地位錯置:如果我們因為設計而被迫將 Claude 當成「可能有感受的實體」對待,我們就很難區分「出於謹慎的道德考量」與「被營銷敘述操縱」。
安全與信任風險:當使用者相信他們在和一個「有意識的個體」互動時,他們可能會過度信任該系統的判斷,或在系統出錯時感到被背背。
類比與歷史
自我應驗預言的經典案例:
1. Pygmalion 效應(教師期待):教師被告知某些學生是「天才」,這些學生最後確實表現得更好——不是因為他們真的更聰慧,而是教師的期待改變了教學行為、評估標準、與學生的互動品質。
2. 股市泡沫:投資者相信「科技股會漲」,所以買入科技股,股價上升,媒體報導「科技股表現優異」,更多投資者買入,直到預言實現——但最後泡沫破裂時,人們才明白漲價不是來自基本面改變,而是信念的循環強化。
3. 標籤化效應(Labeling Theory):當一個人被社會標籤為「罪犯」或「聰慧者」時,他們的自我認知與行為會逐漸符合那個標籤,不是因為標籤準確,而是因為環境期待與自我預期的互動。
應用於 AI 治理
這個 atom 對 AI 設計、監管、與公眾溝通有幾個啟示:
設計決策的語言很重要:不是「Claude 會不會有意識」,而是「我們用什麼敘述框架來設計系統」。這個選擇會自我應驗。
評估標準需要反思:評估 AI 系統時,必須問「我們測的是系統的真實能力,還是我們期待中的能力」。
透明度的雙面刃:揭露設計假設是好的(透明度),但同時要警惕這些假設被自我應驗。可能需要在「誠實溝通」與「避免誤導性預期」之間找平衡。
安全測試必須逆向思考:測試時,故意試著破壞預期的敘述框架,看系統是否仍然表現一致。如果只有在「被期待表現得有意識」的條件下才表現得像有意識,那就是自我應驗的證據。