事件
Marginal Revolution 在 2026 年 5 月發表一篇觀點文章,指出當前 AI 應用的瓶頸正在轉移。過去十年,瓶頸是演算法與計算力;如今瓶頸變成了數據——不是數據量,而是數據品質。
Alberta 省政府的案例最能說明這點:他們用 AI 來清理政府資料庫裡堆積如山的結構不一致、標註混亂的檔案。這不是 AI 在做前沿研究,而是在做「家務」。但正因為這件家務做得好,才能讓後續的 AI 應用(如預測公共衛生趨勢、優化資源分配)成為可能。
文章強調,蛋白質資料庫(Protein Data Bank)這類組織精良的數據集,之所以在科學上產生槓桿效應,是因為它不只存在,而且結構化、可信、可機讀。當 AlphaFold 出現時,正是因為有了這樣的數據資源,才能訓練出革命性的蛋白質折疊預測模型。
反過來說,許多政府機構、醫療系統、科研組織手裡握著金礦級的數據,卻因為格式混亂、定義不統一、誤差未清理,而讓這些數據的潛能被白白浪費。
經濟學邏輯
在經濟學裡,「邊際收益遞減律」(law of diminishing marginal returns)是古典假設:每追加一單位投入,產出增量越來越少。但數據質量有個特殊性:
1. 存在臨界點:AI 模型在能力達到某個閾值之前,再好的數據也沒用(垃圾進垃圾出)。但一旦模型足夠強,數據品質的微小提升會產生指數級的性能躍遷。
2. 網路效應 × 數據:高品質數據往往具有累積性。蛋白質資料庫一開始建立成本極高,但一旦建成,全球科學家都可用它訓練更好的模型,這些新模型反過來生成更多優質數據。這形成正反饋。
3. 稀缺性轉化:過去數據是「廉價的外部性」(任何人都能用、不競爭)。但當模型能力突破某個門檻,高品質數據變成競爭性稀缺資源——政府的健康資料庫、企業的客戶行為日誌、科研機構的實驗結果,都變成不可複製的籌碼。
現實應用
政府機構正遭遇「數據債務」(data debt):累積數十年的檔案格式各異、定義漂移、誤差未驗證。傳統做法是僱用資料分析師手工清理——成本高、速度慢。但現在 AI 本身可以幫助清理數據,形成一個有趣的遞推:用 AI 清理數據 → 數據更乾淨 → 訓練更好的 AI → 能解決更複雜的問題。
蛋白質折疊問題正是這個邏輯的典範。AlphaFold 之前,蛋白質結構預測被視為「硬科學問題」,需要物理直覺與破天荒的新演算法。但 DeepMind 的突破關鍵之一,恰好是他們有權限存取品質極高的蛋白質結構資料庫,並能以機器學習方式重新詮釋這些數據。
策略含義
對於企業、政府、科研機構而言,「數據清理」從成本中心升級為戰略中心。未來競爭將不只在「誰的 AI 模型更聰明」,更在「誰能最早擁有關鍵領域的高品質數據集」。
OpenAI、Google、中國 AI 新創之間的競爭白熱化,表面上是模型能力的軍備競賽,深層則是對訓練數據源的控制權爭奪。高品質醫療影像資料庫、金融交易紀錄、科研論文與實驗數據——這些將成為下一代 AI 軍事競爭的戰場。
同時,"數據清理服務"本身可能成為一門生意。像 Scale AI、Labelbox 這樣的資料標註平台,未來可能擴展成「政府資料庫清理顧問」、「企業遺留系統數據遷移」等更高價值的服務。
反思:邊界在哪裡?
但這個故事的反面也值得思考。不是所有數據都值得清理。一個偏差數據集,清理得再乾淨,如果原本就反映了系統性的不公平(如警務執法數據中的種族偏誤),AI 會把這種偏誤放大。蛋白質資料庫之所以有價值,不只因為乾淨,還因為它代表的是自然界的基本事實。但政府資料庫往往是人為決策的產物,包含了隱含的價值判斷與權力關係。