事件
英國新創 Ineffable Intelligence 由 Google DeepMind 前強化學習主任 David Silver 創立,融資 11 億美元、估值達 51 億美元。公司目標是開發「超級學習者」——一個不依賴人類資料,而是透過自我對局、試錯與反饋,自主發現知識與技能的 AI 系統。
為什麼這很關鍵
過去三年,大型語言模型(LLM)一直受困於一個根本限制:它們只能重組已存在的人類知識。訓練資料來自網路、書籍、論文——全是人類過去的思想。這意味著 LLM 本質上是一個龐大的「文化記憶機器」,無法超越人類已經發現的邊界。
強化學習走了另一條路。在棋類遊戲中,AlphaGo Zero 與 AlphaZero 證明了一個關鍵事實:AI 可以在零人類知識的起點上,透過自我對局發現比人類更優異的策略。它們不是在背誦棋譜,而是在探索遊戲樹的價值邊界。
從 LLM 到強化學習的轉向,本質上是在問一個古老的哲學問題:知識是來自經驗(empiricism),還是來自制度化的發現(systematic exploration)?
知識自舉的三層邏輯
第一層:摆脱依賴性 LLM 的弱點在於無法超越訓練資料的分布。如果人類資料中沒有記錄的現象,LLM 就難以理解。強化學習則不同——它直接與環境互動,環境會回傳客觀的反饋信號(獲勝/失敗、獎勵/懲罰),這種信號不受人類偏見或知識邊界的限制。
第二層:指數級發現 人類學習受限於壽命與認知容量。一個人類棋手可能窮盡 50 年研究某個棋局開局,但 AlphaGo 可以在數小時內對數百萬局對局進行統計。自舉系統的每一次試錯都是資料,規模遠超人類整個文明的試錯記錄。
第三層:超越領域邊界 自舉在棋類有效,能否遷移到其他領域?蛋白質折疊(AlphaFold)、分子設計、工程優化——任何可以定義「反饋信號」的領域,原則上都可以應用自舉邏輯。
現實困境
但自舉學習也有天然的瓶頸: - 反饋信號的定義:在棋類中,「贏」是明確的。但在現實世界中,什麼是「好」?如何度量? - 樣本效率:自舉需要數百萬次試錯。對於成本高昂的領域(藥物開發、飛行器測試),這往往難以承受。 - 初值困境:從隨機起點開始學習,往往陷入淺層局部最優。人類知識的引導,有時反而能加速發現。
歷史回聲
這並非新想法。進化論告訴我們,生物沒有「總設計師」,而是透過無數世代的試錯與天擇,逐步適應環境。自舫正在用計算機重現這個過程。唯一的差異是:演化需要數百萬年,AI 只需數小時。