事件
研究者用 4 篇含有已知錯誤的經濟理論論文測試 Gemini、Claude、ChatGPT、Refine 等多個 AI 模型,要求它們檢查論文正確性。結果:
- **ChatGPT Pro 表現最佳**:偶爾能構造反例、修正證明
- **其他模型明顯較差**:基本找不到錯誤
- **關鍵發現**:沒有一個模型在沒有大量人類指導的情況下定位到真實錯誤
- **數據污染問題**:模型可能在訓練集中見過類似錯誤,導致測試結果無效
觀察:為什麼會這樣?
表面上看,這像個「AI 能力不足」的問題。但挖深一層,問題出在三個層次:
### 1. 設計層——任務本質的詭異性
「找錯誤」這個任務有個隱藏假設:錯誤是可以被目標函數量化的。
AI 的核心運作模式是統計相關性——它學習的是「給定前文,下一個詞最可能是什麼」。即使訓練數據裡有「正確證明 vs 錯誤證明」的對比,模型也是在學習「哪個序列的統計權重更高」,而非「為什麼這個推理在邏輯上必然錯誤」。
經濟學論文的錯誤通常很隱微:假設不夠嚴格、定理應用場景限制沒說清、或者在第 47 頁的一個邊界條件被推翻。這些錯誤對人類來說可以「靠直覺聞出來」(Polanyi 的 tacit knowledge),但統計模型無法量化「違和感」。
### 2. 訓練層——語料庫的結構性偏差
AI 模型訓練數據主要來自已發表的論文、教科書、程式碼。已發表的論文經過同儕審查,錯誤率已大幅降低。這意味著:
- 模型見過的「錯誤範例」稀少且偏向某些類型(計算錯誤、清晰的邏輯跳躍)
- 模型沒有見過的「隱微錯誤」(新穎假設、邊界效應)就無法有效識別
- 即使模型能構造反例、也是在已有的反例模式上微調,而非從零創造新類型反駁
數據污染更進一步:如果某篇論文本身在 arXiv、GitHub 或 Reddit 討論中被揭露過錯誤,模型可能直接記住「這篇論文有問題」,而不是真正理解錯誤在哪。
### 3. 應用層——任務指派的隱性要求
「檢查這篇論文對不對」看似簡單,但隱含了巨大的認知負擔:
- **需要理解背景**:論文用的是什麼公理系統?什麼是合理的假設?經濟學內部對某個概念的共識是什麼?
- **需要判斷重要性**:這個錯誤是致命的邏輯漏洞,還是邊界情況下的筆誤?
- **需要反事實思維**:「如果這個假設改一下,結論會怎樣」——這涉及對問題深層結構的非線性理解
AI 在這些方面退化為「模式匹配」,而模式匹配對於「發現前所未見的錯誤」本質上是無效的。
核心原則:工具的三層認知邊界
將任何工具(劍、顯微鏡、計算機、AI)視為擴展人類能力的東西,它的邊界由三層決定:
### 第一層:設計邊界 某些任務在工具的設計原理上就無法做。例如: - 用尺子測量時間 - 用計算器判斷「這個詩寫得好不好」 - 用統計模型理解「為什麼」(correlation vs causation)
AI 面對的設計邊界:統計相關性本質上無法到達因果推理的深度。識別隱微錯誤需要因果、反事實、目的論思維,而這些不能被純粹的梯度優化學到。
### 第二層:訓練邊界 即使設計上可行,也需要足量的、品質高的訓練數據。如果數據裡沒有某類現象,工具就無法學會識別它。
AI 面對的訓練邊界:「隱微錯誤」在自然語言語料庫中極為稀少。模型見過的錯誤主要是計算錯誤、明顯矛盾、已知反例。對於「論文作者自己可能沒意識到的結構性錯誤」,訓練數據本身就缺失。