事件
最新研究對比「通用大型語言模型」(如 GPT-4、Claude)與「醫療領域專用 AI 工具」在臨床基準測試上的表現。結果令人震驚:通用模型在所有三項評估上都壓倒專用工具。更讽刺的是,這些動了十年心血的醫療專用工具、性能甚至只與「谷歌搜尋 AI 助手」相當。
直覺上的預期破滅
過去 30 年,科技業的常識是「專用勝於通用」。自動駕駛採用專門的感知晶片;醫療診斷系統訓練在百萬級臨床影像;推薦演算法用客製化的用戶行為特徵工程。越「深」越好——把世界上所有複雜性都壓進一個狹窄的目標函數。
但通用大型語言模型的出現打破了這個邏輯。它們不是在「最有效的診斷」上優化,而是在「理解人類語言與推理」上優化。這個看似更寬、更「低效」的訓練目標,反而內化了足夠的醫學知識、邏輯推理、歧義處理能力,足以在真實臨床情景中碾壓專用工具。
為什麼會這樣?
### 1. 邊界條件的黑天鵝
醫療診斷從不是一個「閉世界問題」。病人不會規規矩矩按照訓練資料分布出現。一個患者同時患有三種罕見病、一個患者的症狀介於兩個診斷分類之間、一個患者說的不是標準醫學術語——這些都是真實臨床的日常。
專用系統的致命傷是「脆性」。它在訓練分布內表現完美,但一旦遇上分布外資料,性能懸崖式下跌。而通用語言模型因為在數兆詞的文本上訓練,內化了對自然語言邊界模糊性、上下文相依性、罕見情景的處理能力。它的「泛化」就像一個經驗老醫師的直覺——不是記住教科書,而是理解原則,能推廣到陌生情景。
### 2. 特徵工程的衰退
傳統專用醫療 AI 的核心工作是「特徵工程」——將原始臨床資料(檢驗值、影像像素、病歷文本)轉換成精心設計的表示。這個過程是知識密集的,需要領域專家參與。但這也意味著系統只能學習人類設計者想到的那些特徵。
通用大型語言模型跳過了這一步。它用自監督學習(從無標籤文本自動學習),自動發現了數百萬個有效特徵。這些特徵不是「人類認為醫學相關的」,而是「在預測下一個詞時統計上有效的」。有趣的是,這個看似與醫學無關的目標函數,卻捕捉到了更深層的結構。
### 3. 遷移學習的威力
通用模型的訓練資料不只是醫學文獻。它也讀了歷史、哲學、新聞、科普、代碼——包含了人類所有知識。在這個龐大背景上訓練出的推理能力、類比能力、因果理解,意外地也適用於醫療推理。
相比之下,專用醫療 AI 的訓練資料是「醫學相關」,但也因此被限制在醫學社群已經標註的那些案例內。它沒有機會學到「物理學中的類比推理」、「歷史中的因果推斷」如何遷移到醫學診斷。
反轉的含義
### 對醫療科技公司
如果專用工具已經被通用模型擊敗,那麼初創公司投入十年、花數百萬美元開發「專用醫療診斷系統」的商業模式就徹底破產。唯一的防守方式可能是: - 不與通用模型競爭診斷本身,而是競爭「在臨床工作流中的集成」——即開發更好的醫患互動界面、病歷系統集成、監管合規工具。 - 或者聚焦超罕見病、通用模型訓練資料稀疏的領域——但這個市場太小,無法支撐初創的融資故事。
### 對醫療決策的社會含義
更深刻的問題是:如果通用大型語言模型在臨床基準上超越專用工具,但它的決策過程對醫師仍是「黑箱」、它的知識來源是「互聯網上的所有東西」(包括垃圾資訊),那麼引入這樣的系統到真實臨床的風險在哪?
研究本身提醒:「需要獨立、真實世界的評估,才能讓 AI 工具進入臨床環境。」基準測試不等於臨床效果。模型在 MCQ(選擇題)上打 95 分,不代表它在會診病房推薦治療方案時的錯誤率。
更大的敘事
這個發現不是孤立的。它反映了深度學習與大型模型時代的一個更大的 pattern:
- **AlphaGo 不是圍棋專家系統**,它是通用的深度學習框架
- **GPT 不是搜尋引擎優化工具**,它是通用語言模型
- **Copilot 不是只給程式設計師的**,它在法律、醫學、寫作都有效
一次又一次,我們看到:當資訊複雜度高、模式多樣時,。