事件
OpenAI 在 2026 年 5 月宣布其新預設模型 GPT-5.5 Instant 在幻覺問題(即生成不符事實的聲稱)上有「顯著改善」。根據公司發布的「內部評估」,該模型在醫學、法律、金融等高風險領域針對特定提示詞的幻覺聲稱減少了 52.5%,相比 GPT-5.3 的 Instant 版本。
背景
幻覺一直是大型語言模型的核心問題——模型以高度確信的語氣生成聽起來合理但完全虛構的資訊。在醫療診斷、法律諮詢或財務建議場景中,這類錯誤可能造成真實傷害。因此 OpenAI 的進步宣稱應該是利好消息。
問題所在
但仔細看,這個數字背後藏著三層驗證盲點:
第一層:測試選擇偏誤。「高風險領域的特定提示詞」意味著 OpenAI 可能專門挑選模型表現相對穩定的測試題。真實用戶的提問分佈——包括邊界案例、模棱兩可的問題、跨領域混雜的查詢——往往比廠商內部基準寬泛得多。
第二層:指標定義權力。什麼叫「幻覺聲稱」?計數單位是什麼?一個長句子中的多個虛構事實如何計算?OpenAI 掌握定義權,外部審計者無法復現實驗條件。Goodhart 定律指出:一旦某個指標被當作目標,它就失去了作為指標的效力——因為廠商會針對該指標優化,而非優化底層現象。
第三層:激勵失衡。OpenAI 發布數字是為了提升市場信心、吸引企業客戶、證明技術進步。但它沒有經濟動力誇大負面結果。獨立第三方(如學術機構)可能有相反動力。這種不對稱性意味著廠商聲稱本質上帶有樂觀偏誤。
實際意義
52.5% 的改善聽起來很具體。但如果基準數字本身就有問題(例如,原始模型在那些特定提示上幻覺率本來就遠低於平均水平),改善率就被誇大了。更重要的是,企業用戶無法在採購決策時驗證這個數字,只能基於品牌信任或等待大規模部署後的反饋。
這種現象在 AI 產業尤其普遍:模型效能邊界不清、評估基準眾多且不統一、黑箱測試結果難以外部驗證。因此,聽到任何廠商性能宣稱時,提出以下問題更有價值: - 誰進行了獨立驗證? - 基準測試套件是否公開? - 改善在真實場景的廣泛應用中是否成立?