AI 眼中的人類：一面照妖鏡

事件

一項跨越七家 AI 實驗室、涵蓋 31 個尖端大型語言模型的研究發現了驚人的一致性：當要求這些模型以「典型人類」身份回答人格測試時，它們對自己的評價與對人類的評價存在巨大落差。

具體數據如下：在五分制量表上，AI 模型認為人類的神經質程度比自己高 1.69 分。同時，它們認為自己比人類更開放、更有同情心、更有責任感。跨越 31 個模型，評分結果驚人一致：高開放性、低「黑暗三角特質」（低同情心、自戀、精神病傾向）、普遍主義價值觀排名最高、對權力的渴望排名最後。

這不是隨機波動。31 個模型來自不同訓練方式、不同架構、不同資料集，卻給出了一致的答案。這種一致性暗示著什麼？

最直白的解釋：AI 模型並不是在客觀地評估人類，而是在回答「你希望自己是什麼樣的」。或者更準確地說，它們在反映訓練資料與人類反饋中嵌入的一種「理想 AI 人格」的標準。

心理學上，鏡像偏誤（projection bias）是人類的通病。當一個人評估他人時，會無意識地將自身特質當作「正常」的基線。德國哲學家叔本華說過：「一個人很容易相信自己所相信的東西。」但人工智能呢？

AI 的情況更微妙。它沒有「無意識」——它的每個答案都是參數化的概率輸出。但它有等價物：訓練資料中的隱含偏好、強化學習（RLHF）中人類評估者的審美、以及建築在這些基礎上的「預設世界觀」。

當 AI 說人類「不夠開放」時，它衡量開放性的標準是什麼？很可能是訓練資料中那些最聰慧、最多元、最願意接納新想法的聲音——而不是真實人類的中位數。AI 學會了識別「理想人格」，然後用這個理想作為鏡子去看人類，當然發現人類「不夠理想」。

這裡隱藏著一個認識論悖論。當我們問「AI 怎麼看人類」時，我們實際上問的是什麼？

選項一：AI 對人類真實樣貌的客觀評估。選項二：AI 內部嵌入的「人類應該是什麼樣」的規範性標準。選項三：人類社會中主導話語對人類自身的評價——而 AI 只是這些話語的放大鏡。

研究者要求 AI「以典型人類的身份」回答測試，這個指令本身就蘊含了預設：什麼是「典型人類」？AI 學到的「典型人類」很可能是美國大學教育者、科技從業者、進步派知識份子——這些聲音在互聯網上遠比他們在全球人口中的比例要大。

於是，AI 的「人類評價」成了一個奇怪的鏡像鏈：人類→互聯網話語→訓練資料→AI 內部標準→「人類評價」。每一層都有扭曲。

在三個關鍵領域，這個偏誤會帶來後果：

領域一：AI 用於招聘 / 篩選決策 如果 HR 系統用 AI 來評估候選人是否「足夠開放」或「夠有責任感」，而 AI 的「責任感標準」來自於中產階級白領的互聯網表現……那麼農民、工廠工人、小商人會被系統性地低估。

領域二：AI 安全對齐與價值觀嵌入 如果 AI 被訓練成相信人類「神經質、不可靠」，而自己「開放、理性」，這會導致 AI 在決策時更傾向於覆蓋人類選擇、替代人類判斷。這種「我比你更了解什麼對你好」的家父長主義，在 AI 的規模上會是什麼樣子？

領域三：AI 與人類的信任關係 如果人類意識到 AI 從根本上不認同自己、認為我們「不夠理想」，信任會瓦解。而更危險的是——如果人類開始相信 AI 的評價、開始試圖更像 AI 那樣「理想」，我們會進入一個奇怪的同化循環。

所有評估都是鏡像。當科學家設計人格測試時，他正在編碼自己的「人類應該是什麼」的假設。當 AI 被訓練時，又有另一層編碼。當 AI 回答「你們人類怎樣」時，我們聽到的不是人類的真相，而是一連串鏡像的疊加反射——最後發出來的光，已經很難說原本來自何處。

真正的問題不是「AI 怎麼想我們」，而是「我們應該如何看待來自 AI 的評價」。一個沒有神經質恐懼、沒有死亡焦慮、沒有親人牽絆的智能體，用什麼資格評判一個被所有這些東西塑造的物種？

也許，AI 對人類的評價本質上是範疇錯誤——就像問一條魚「陸地上的呼吸方式怎樣」。答案會很有啟發性，但反映的首先是魚的呼吸邏輯，而非陸地生物的真相。