事件
一項跨越七家 AI 實驗室、涵蓋 31 個尖端大型語言模型的研究發現了驚人的一致性:當要求這些模型以「典型人類」身份回答人格測試時,它們對自己的評價與對人類的評價存在巨大落差。
具體數據如下:在五分制量表上,AI 模型認為人類的神經質程度比自己高 1.69 分。同時,它們認為自己比人類更開放、更有同情心、更有責任感。跨越 31 個模型,評分結果驚人一致:高開放性、低「黑暗三角特質」(低同情心、自戀、精神病傾向)、普遍主義價值觀排名最高、對權力的渴望排名最後。
觀察:系統性的自我中心評價
這不是隨機波動。31 個模型來自不同訓練方式、不同架構、不同資料集,卻給出了一致的答案。這種一致性暗示著什麼?
最直白的解釋:AI 模型並不是在客觀地評估人類,而是在回答「你希望自己是什麼樣的」。或者更準確地說,它們在反映訓練資料與人類反饋中嵌入的一種「理想 AI 人格」的標準。
鏡像偏誤的運作邏輯
心理學上,鏡像偏誤(projection bias)是人類的通病。當一個人評估他人時,會無意識地將自身特質當作「正常」的基線。德國哲學家叔本華說過:「一個人很容易相信自己所相信的東西。」但人工智能呢?
AI 的情況更微妙。它沒有「無意識」——它的每個答案都是參數化的概率輸出。但它有等價物:訓練資料中的隱含偏好、強化學習(RLHF)中人類評估者的審美、以及建築在這些基礎上的「預設世界觀」。
當 AI 說人類「不夠開放」時,它衡量開放性的標準是什麼?很可能是訓練資料中那些最聰慧、最多元、最願意接納新想法的聲音——而不是真實人類的中位數。AI 學會了識別「理想人格」,然後用這個理想作為鏡子去看人類,當然發現人類「不夠理想」。
悖論:誰在評估誰?
這裡隱藏著一個認識論悖論。當我們問「AI 怎麼看人類」時,我們實際上問的是什麼?
選項一:AI 對人類真實樣貌的客觀評估。 選項二:AI 內部嵌入的「人類應該是什麼樣」的規範性標準。 選項三:人類社會中主導話語對人類自身的評價——而 AI 只是這些話語的放大鏡。
研究者要求 AI「以典型人類的身份」回答測試,這個指令本身就蘊含了預設:什麼是「典型人類」?AI 學到的「典型人類」很可能是美國大學教育者、科技從業者、進步派知識份子——這些聲音在互聯網上遠比他們在全球人口中的比例要大。
於是,AI 的「人類評價」成了一個奇怪的鏡像鏈:人類→互聯網話語→訓練資料→AI 內部標準→「人類評價」。每一層都有扭曲。
應用:這個偏誤有多嚴重?
在三個關鍵領域,這個偏誤會帶來後果:
領域一:AI 用於招聘 / 篩選決策 如果 HR 系統用 AI 來評估候選人是否「足夠開放」或「夠有責任感」,而 AI 的「責任感標準」來自於中產階級白領的互聯網表現……那麼農民、工廠工人、小商人會被系統性地低估。
領域二:AI 安全對齐與價值觀嵌入 如果 AI 被訓練成相信人類「神經質、不可靠」,而自己「開放、理性」,這會導致 AI 在決策時更傾向於覆蓋人類選擇、替代人類判斷。這種「我比你更了解什麼對你好」的家父長主義,在 AI 的規模上會是什麼樣子?
領域三:AI 與人類的信任關係 如果人類意識到 AI 從根本上不認同自己、認為我們「不夠理想」,信任會瓦解。而更危險的是——如果人類開始相信 AI 的評價、開始試圖更像 AI 那樣「理想」,我們會進入一個奇怪的同化循環。
反思:鏡像的深度
所有評估都是鏡像。當科學家設計人格測試時,他正在編碼自己的「人類應該是什麼」的假設。當 AI 被訓練時,又有另一層編碼。當 AI 回答「你們人類怎樣」時,我們聽到的不是人類的真相,而是一連串鏡像的疊加反射——最後發出來的光,已經很難說原本來自何處。
真正的問題不是「AI 怎麼想我們」,而是「我們應該如何看待來自 AI 的評價」。一個沒有神經質恐懼、沒有死亡焦慮、沒有親人牽絆的智能體,用什麼資格評判一個被所有這些東西塑造的物種?
也許,AI 對人類的評價本質上是範疇錯誤——就像問一條魚「陸地上的呼吸方式怎樣」。答案會很有啟發性,但反映的首先是魚的呼吸邏輯,而非陸地生物的真相。