事件背景
珍‧古德(Jane Goodall)自 1960 年代開始於坦尚尼亞貢貝溪國家公園進行黑猩猩田野研究,迄今超過 60 年。她與團隊累積了 50 萬頁以上的手寫田野筆記、照片、錄音帶與影片紀錄——這是現存關於野生黑猩猩最完整、跨度最長(涵蓋 5 代黑猩猩族群)的文獻。
2026 年,珍‧古德研究所與亞馬遜雲服務(AWS)合作啟動數位化與 AI 萃取專案:使用光學字元辨識(OCR)與自然語言處理(NLP)將手寫筆記轉為可檢索文本,將影像與音檔標籤化,整合至雲端資料庫。預計於 3 年內完成全部資料數位化,並向全球研究機構開放查詢。
為什麼現在才做?
技術可行性的時間窗口剛打開。 5 年前,將 50 萬頁手寫文件轉換為結構化資料、成本仍在數百萬美元、耗時 10 年以上。OCR 精度不足 85%、對筆跡變異的容錯性差。AWS 的多模態 AI(處理文字、圖像、音頻的統一模型)與按需計算成本、使這個專案從「理想」變成「可執行」。
資料價值的認識轉變。 古德的筆記在數位化前、本質上是「檔案」——被動保存、等待單一研究者輪流翻閱。數位化後、同一份資料可被 1000 個研究單位同時查詢、支援跨學科問題(黑猩猩社會學 × 氣候變遷影響 × 個體發展心理學 × 族群動力學)。資訊的邊際價值從「線性」變成「指數」。
代際更新與緊迫性。 珍‧古德現已 92 歲、親自進行田野工作的時代終結。若這堆紀錄只存在她個人的大腦與筆記本中、她離世後就有部份知識流失風險。數位化 + 開放是對 60 年研究投入的「永續化」。
知識考古學視角
這個案例實際上是在回答一個更深層的問題:什麼決定了知識能否跨越時空、邊界與主體而「流動」?
古德的筆記在 1980 年代有價值——但這個價值被鎖在紙張與她個人的詮釋權中。一份筆記 = 一個研究者 × 一個時間點 × 一個詮釋框架。
數位化改變了這個結構: - 從「記錄」到「資料」:手寫筆記是敘事文本(narrative),AI 萃取後變成可查詢的結構化資料(data)。同一段文字、能同時支援「黑猩猩工具使用演化」與「母親撫養行為」兩個完全不同的研究問題。 - 從「專有」到「共用」:一本筆記本在一個時刻只能被一個人閱讀;雲端資料庫可被無限數量的研究者同時檢索、交叉驗證、融合新問題。 - 從「保存」到「再激活」:數位化前、資料的主要功能是被保存(防止遺失);數位化後、資料的主要功能是被重新問題化(re-problematization)——用新方法、新問題去「審問」舊資料。
隱藏的成本與危機
但這個過程也帶來三個隱患:
1. 詮釋權的轉移 古德手寫筆記中的「脈絡」——為什麼這一刻她選擇記錄、為什麼用這個詞彙、背景中的天氣與季節變化——這些在 OCR 萃取過程中會部份遺失。AI 看到的是「文字」,看不到「手寫筆觸的猶豫」或「紙張邊緣的咖啡漬」(這些可能暗示著記錄時的心境)。
2. 標籤化的暴力 NLP 模型必須將筆記分類成「行為」「社會互動」「環境」等標籤,才能被檢索。但古德的筆記的價值經常在於這些類別的*模糊邊界*——一個行為既是社會的、也是環境適應的、也反映個體心理。機器的分類會固化某種理論框架、抹去多義性。
3. 樣本偏差的代際繼承 古德的觀察方法受 1960 年代科學範式制約——她注意什麼、忽略什麼,都反映了當時的理論關注。將這些筆記數位化後,新世代研究者可能會無意中繼承她的盲點,而非超越它。
應用邊界
「知識考古學」很容易被過度浪漫化。並不是所有類比資料都值得數位化: - 高度個人化的資料(如心理治療紀錄):數位化後隱私風險劇增。 - 理論化程度低的原始筆記:光做 OCR 還不夠,必須有領域專家重新詮釋;否則數位化反而製造了「看似客觀其實任意」的錯覺。 - 資訊密度低的檔案:若一份紙質文檔只有 10% 的內容具科研價值、花費 100 萬美元數位化整個檔案,邊際報酬遞減。
古德的筆記之所以值得投入數位化,核心原因是:(a) 時間跨度無法複製(60 年的縱貫觀察,新研究者再花 60 年也只是重複),(b) 理論化程度已足夠(她的筆記不是原始流水帳,而是經驗科學家的有意識記錄),(c) 跨學科適配度高(黑猩猩資料能被套用到認知科學、社會學、演化生物學、倫理學)。