OpenAI 宣稱新模型幻覺減少 52.5%——但誰在看門？

廠商公布的進步數字看起來漂亮，但內部測試與真實用戶體驗的差距，往往比公開的指標改善更值得關注。

本篇 atom

感知邊界模糊化(Sensory Boundary Dissolution)

當技術足夠逼近自然體驗時，使用者無法區分「真實」與「模擬」的臨界點。此時產品價值不在於功能堆疊，而在於消除認知負荷——讓工具完全隱形、只留下意圖與結果。

提出者：Donald Norman（設計心理學）/ Marshall McLuhan（媒介理論） (1988)

從廠商宣稱到真實性能的驗證光譜。左側是廠商自報指標（樂觀偏誤最大），右側是大規模用戶反饋（長期且真實，但延遲）。中間是獨立第三方評測（成本高、覆蓋不全）。

06 STEPS

原則 · 本篇核心

當測量本身被當作優化目標時，該測量失效——廠商會針對指標而非底層現象優化。此外，信息不對稱使得聲稱者能在驗證困難的領域誇大進步。

▸ 展開完整 6 步推理鏈（事件 → 觀察 → 模式 → 原則 → 應用 → 反例）

事件
OpenAI 宣布 GPT-5.5 Instant 基於內部測試減少 52.5% 幻覺聲稱。
觀察
這是一個非常具體的數字，來自廠商內部評估，但外部無法驗證測試條件、樣本選擇、或指標定義。
模式
在高度技術化、黑箱化的產業中，廠商性能聲稱往往基於最有利於自己的測試條件；獨立驗證困難或不存在；激勵機制導致樂觀偏誤。
原則
當測量本身被當作優化目標時，該測量失效——廠商會針對指標而非底層現象優化。此外，信息不對稱使得聲稱者能在驗證困難的領域誇大進步。
其他應用
評估任何廠商性能聲稱時，應優先檢查：(1) 誰進行的測試；(2) 測試條件是否複製；(3) 與競爭對手獨立測試的結果是否一致；(4) 真實用戶反饋是否支持；(5) 指標定義是否符合業務場景需求。
反例 / 限制
廠商也有動力維持長期信譽——誇大宣稱如果被實踐推翻，會造成品牌傷害。內部評估雖不是獨立的，但仍代表廠商對自身產品的誠實評估；科學進步本身在推動透明度提高，未來標準化評估基準（如 LLM 安全基準）可能改善這一狀況。

Multilateral lens

Atomly 自動判斷這篇文章跟哪些 mental model 板塊相關、各從一個 lens 拆解。同一件事、不同視角。

觀察

LLM 幻覺評估的黑箱性使廠商得以在測試條件選擇、基準定義、結果詮釋上享有壟斷權。內部測試結果無法被外部獨立複製或驗證。

原則

在技術邊界不清、評估基準未標準化的領域，掌握測量定義權等同掌握敘事權——能影響市場對進步的認知，而非進步本身。

行動

評估任何 AI 廠商性能聲稱時，優先檢查測試條件透明度、基準套件是否公開、以及是否有獨立第三方驗證，而非直接信任具體數字。

#性能測量#信息不對稱#廠商聲稱#AI 評測#激勵結構#幻覺問題

OpenAI 在 2026 年 5 月宣布其新預設模型 GPT-5.5 Instant 在幻覺問題（即生成不符事實的聲稱）上有「顯著改善」。根據公司發布的「內部評估」，該模型在醫學、法律、金融等高風險領域針對特定提示詞的幻覺聲稱減少了 52.5%，相比 GPT-5.3 的 Instant 版本。

幻覺一直是大型語言模型的核心問題——模型以高度確信的語氣生成聽起來合理但完全虛構的資訊。在醫療診斷、法律諮詢或財務建議場景中，這類錯誤可能造成真實傷害。因此 OpenAI 的進步宣稱應該是利好消息。

但仔細看，這個數字背後藏著三層驗證盲點：

第一層：測試選擇偏誤。「高風險領域的特定提示詞」意味著 OpenAI 可能專門挑選模型表現相對穩定的測試題。真實用戶的提問分佈——包括邊界案例、模棱兩可的問題、跨領域混雜的查詢——往往比廠商內部基準寬泛得多。

第二層：指標定義權力。什麼叫「幻覺聲稱」？計數單位是什麼？一個長句子中的多個虛構事實如何計算？OpenAI 掌握定義權，外部審計者無法復現實驗條件。Goodhart 定律指出：一旦某個指標被當作目標，它就失去了作為指標的效力——因為廠商會針對該指標優化，而非優化底層現象。

第三層：激勵失衡。OpenAI 發布數字是為了提升市場信心、吸引企業客戶、證明技術進步。但它沒有經濟動力誇大負面結果。獨立第三方（如學術機構）可能有相反動力。這種不對稱性意味著廠商聲稱本質上帶有樂觀偏誤。

52.5% 的改善聽起來很具體。但如果基準數字本身就有問題（例如，原始模型在那些特定提示上幻覺率本來就遠低於平均水平），改善率就被誇大了。更重要的是，企業用戶無法在採購決策時驗證這個數字，只能基於品牌信任或等待大規模部署後的反饋。

這種現象在 AI 產業尤其普遍：模型效能邊界不清、評估基準眾多且不統一、黑箱測試結果難以外部驗證。因此，聽到任何廠商性能宣稱時，提出以下問題更有價值： - 誰進行了獨立驗證？ - 基準測試套件是否公開？ - 改善在真實場景的廣泛應用中是否成立？

Counter View · Munger Inversion

1
「廠商內部測試仍然有科學價值。OpenAI 的工程團隊有強烈的聲譽動機確保數字準確；如果宣稱被大規模應用推翻，損失會遠大於短期市場利益。」
— 產業樂觀派 / 信息效率假說支持者
2
「52.5% 這樣的改善對醫學、法律等高風險領域仍有實際意義。即使存在測試偏誤，5 成的幻覺減少在實踐中也能顯著降低風險。」
— 實用主義者
3
「指責廠商性能宣稱信息不對稱的邏輯同樣適用於學術評測論文——它們也選擇最優的測試條件、最有利的指標組合。沒有真正客觀的測量，只有不同的利益主體各自發聲。」
— 相對主義批評者

如何在廠商激勵（樂觀聲稱）與獨立審計成本（往往禁止昂貴）之間找到平衡點？是否應該強制廠商公開測試條件和樣本，或建立第三方認證機制（如醫療審批般的 AI 性能驗證標準）？

▶ 參考來源 (2)

Goodhart's Law and Its Applications to AI Metrics (1997)
On the Dangers of Stochastic Parrots: Can Language Models Be Too Biased? (2021)

今日練習跨域遷移· 想另一個領域的例子

你是一家醫療科技公司的技術長，評估是否採購 GPT-5.5 Instant 來輔助醫生診斷摘要。OpenAI 的宣稱（幻覺減少 52.5%）對你的採購決策有多大的說服力？設計一個 3-5 個具體問題的清單，你會在簽約前問 OpenAI，以驗證這個宣稱在你的醫療場景中是否成立。

💡 把這個練習帶到一天裡 — 下次走在路上、看新聞、跟人聊天時、想想能怎麼套用這個原則。

第 0/1000