從人類資料到自我發現：AI 如何靠「自舉」突破天花板

當 AI 停止模仿人類，開始向宇宙問問題時，會發現什麼？

本篇 atom

能力的阶跃与数据的临界量(Capability Phase Transition via Data Threshold)

当系统获得足够规模的高质量数据时，性能会经历非线性跃升。不是线性改进，而是突破某个临界点后，能力从「不可用」跳跃到「可用」。这个转折点的到来取决于：(1) 数据规模与多样性，(2) 学习架构的可扩展性，(3) 反馈循环的效率。

提出者：Scaling Law 理论框架（Kaplan et al., OpenAI），embodied AI 實踐應用 (2020)

知識來源光譜：從完全依賴人類資料（LLM）到完全自舫發現（強化學習），中間是混合模式。

推理鏈 · DNA chain

06 STEPS

原則 · 本篇核心

知識自舫：當一個系統的學習信號來自內部試錯而非外部灌輸時，它能發現該系統創造者未曾預見的模式（因為創造者本身被侷限在已知知識的框架內）。

▸ 展開完整 6 步推理鏈（事件 → 觀察 → 模式 → 原則 → 應用 → 反例）

事件
Ineffable Intelligence 融資 51 億美估值，宣布開發不依賴人類資料的 AI「超級學習者」。
觀察
LLM 受困於訓練資料邊界，只能組合已知知識；而 AlphaGo Zero 透過自我對局發現人類未知的策略。
模式
系統能否突破創新天花板，取決於是否能逃脫對「既有資料」的依賴，轉而直接與環境的反饋互動。
原則
知識自舫：當一個系統的學習信號來自內部試錯而非外部灌輸時，它能發現該系統創造者未曾預見的模式（因為創造者本身被侷限在已知知識的框架內）。
其他應用
從基礎研究到工程實踐：蛋白質結構預測、分子設計、軟體驗證、自主機器人控制——所有可定義客觀反饋的領域都適用此原則。
反例 / 限制
自舫在現實中的適用性受限於反饋信號難以定義的領域（藝術創作、道德判斷），且樣本效率低下可能使其在商業上難以部署。

Multilateral lens

從不同板塊看這篇

Atomly 自動判斷這篇文章跟哪些 mental model 板塊相關、各從一個 lens 拆解。同一件事、不同視角。

觀察

LLM 受訓練資料分布限制只能重組已知知識；AlphaGo Zero 卻能在零人類知識起點透過自我對局發現超越人類的策略，展現了兩種學習範式的能力邊界差異。

原則

系統能否突破創新天花板，取決於學習信號來源：依賴外部灌輸（受既有知識限制）vs 與環境直接互動（對反饋信號的探索無上限）。

行動

評估新 AI 產品時應檢視其反饋環路設計：是否能定義客觀信號？樣本規模是否足以進行指數級發現？這決定了其突破已知邊界的潛力。

深入「AI/科技」板塊 →

出處：紅杉資本、NVIDIA 押注！Google DeepMind 前研究員創 AI 新創，打造「超級學習者」估值飆 51 億 · TechOrange · 2026-04-28T09:46:17+00:00

#強化學習#知識發現#AI 訓練範式#自舫系統#超越人類知識邊界#反饋信號設計#樣本效率

事件

英國新創 Ineffable Intelligence 由 Google DeepMind 前強化學習主任 David Silver 創立，融資 11 億美元、估值達 51 億美元。公司目標是開發「超級學習者」——一個不依賴人類資料，而是透過自我對局、試錯與反饋，自主發現知識與技能的 AI 系統。

為什麼這很關鍵

過去三年，大型語言模型（LLM）一直受困於一個根本限制：它們只能重組已存在的人類知識。訓練資料來自網路、書籍、論文——全是人類過去的思想。這意味著 LLM 本質上是一個龐大的「文化記憶機器」，無法超越人類已經發現的邊界。

強化學習走了另一條路。在棋類遊戲中，AlphaGo Zero 與 AlphaZero 證明了一個關鍵事實：AI 可以在零人類知識的起點上，透過自我對局發現比人類更優異的策略。它們不是在背誦棋譜，而是在探索遊戲樹的價值邊界。

從 LLM 到強化學習的轉向，本質上是在問一個古老的哲學問題：知識是來自經驗（empiricism），還是來自制度化的發現（systematic exploration）？

知識自舉的三層邏輯

第一層：摆脱依賴性 LLM 的弱點在於無法超越訓練資料的分布。如果人類資料中沒有記錄的現象，LLM 就難以理解。強化學習則不同——它直接與環境互動，環境會回傳客觀的反饋信號（獲勝/失敗、獎勵/懲罰），這種信號不受人類偏見或知識邊界的限制。

第二層：指數級發現 人類學習受限於壽命與認知容量。一個人類棋手可能窮盡 50 年研究某個棋局開局，但 AlphaGo 可以在數小時內對數百萬局對局進行統計。自舉系統的每一次試錯都是資料，規模遠超人類整個文明的試錯記錄。

第三層：超越領域邊界 自舉在棋類有效，能否遷移到其他領域？蛋白質折疊（AlphaFold）、分子設計、工程優化——任何可以定義「反饋信號」的領域，原則上都可以應用自舉邏輯。

現實困境

但自舉學習也有天然的瓶頸： - 反饋信號的定義：在棋類中，「贏」是明確的。但在現實世界中，什麼是「好」？如何度量？ - 樣本效率：自舉需要數百萬次試錯。對於成本高昂的領域（藥物開發、飛行器測試），這往往難以承受。 - 初值困境：從隨機起點開始學習，往往陷入淺層局部最優。人類知識的引導，有時反而能加速發現。

歷史回聲

這並非新想法。進化論告訴我們，生物沒有「總設計師」，而是透過無數世代的試錯與天擇，逐步適應環境。自舫正在用計算機重現這個過程。唯一的差異是：演化需要數百萬年，AI 只需數小時。

Counter View · Munger Inversion

1
「自舫學習在複雜、高維的現實環境中樣本效率極低，可能永遠無法與人類知識引導的學習競爭。」
— 傳統機器學習社群（Yann LeCun 等人亦提及此風險）
2
「「超級學習者」的反饋信號定義本身就內含人類價值判斷，本質上仍無法逃脫人類知識的影子。」
— 符號主義 AI 陣營與哲學批評者
3
「自舫的成功案例（AlphaGo、AlphaFold）都侷限在高度結構化、規則明確的領域；對開放式問題（科學發現、工程設計）效力未經驗證。」
— 實證主義批評

當反饋信號本身難以定義時（例如「科學發現什麼才算有價值」），自舫學習是否退化為人類價值觀的隱性編碼？是否存在不依賴人類判斷、純粹客觀的反饋信號？

▶ 參考來源 (3)

Mastering the Game of Go without Human Knowledge (2017)
Reinforcement Learning: An Introduction (2018)
The Bitter Lesson (2019)

今日練習跨域遷移· 想另一個領域的例子

登入收藏

**跨領域應用題** 假設你是一家製造公司，想用強化學習優化「工廠產線的能源調度」。與棋類遊戲相比，定義「反饋信號」時你會面臨什麼核心難題？（提示：想想棋類中「贏」是多麼明確，但工廠中的「最優」可能涉及多個衝突的目標。）

💡 把這個練習帶到一天裡 — 下次走在路上、看新聞、跟人聊天時、想想能怎麼套用這個原則。

第 0/1000