事件
2026 年 6 月,智平方發佈了「皮層—小腦—脊髓」三級類腦架構的具身智能系統 NeuroVLA。這套系統將機器人運動抖動降低 75% 以上,並在碰撞後 20 毫秒內完成反射應答。
為什麼這件事重要
過去 15 年的深度學習浪潮中,機器學習架構往往是「一張大網」——單層或少層的卷積網絡或 Transformer,所有決策都經過同一個瓶頸。這套架構在棋類遊戲(AlphaGo)、語言模型(GPT)上無敵,但在實體世界的具身智能上卻暴露了致命弱點:
1. 延遲成本太高:一個決策需要經過 200-500 毫秒的完整推理迴路,此時機器人已經撞上障礙物了。 2. 功耗浪費:所有動作都需要喚醒完整的語義理解層,導致待機功耗是「活著」的成本。 3. 魯棒性差:單層網絡對分布外事件(out-of-distribution)無防禦,一個意外碰撞導致整個系統重新規劃路徑。
智平方的三層設計回歸生物學——人類脊髓就是「下意識決策中心」。當妳的手接觸熱源時,收縮反射在脊髓層面完成,不需要大腦確認、更不需要妳思考「我應該縮手」。這個迴路的延遲只有 50 毫秒。
架構分工邏輯
皮層(高層規劃、低頻率 100ms) - 語義理解與長期任務規劃 - 決策時間:100-500 毫秒 - 範例:「我要把這個杯子放到桌子上」
小腦(中層協調、中頻率 10-20ms) - 動作轨跡的平滑修正與動態調整 - 決策時間:10-50 毫秒 - 範例:手移動時自動調整重力補償、保持杯子水平
脊髓(低層反射、毫秒級 1-20ms) - 碰撞檢測、本體感受回饋、安全反應 - 決策時間:1-20 毫秒 - 範例:接觸障礙物立刻停止、完全不需要皮層批准
這三層的時間尺度相差 50 倍——脊髓在毫秒級自主運作,不是等待皮層下令。
為什麼單層無法做到
假設妳用一個 100 層 Transformer 做機器人決策:
1. 訓練困難:妳需要為「反射」行為也標註標籤,但反射動作本質上是應急,無法被單純的監督學習捕捉。 2. 泛化失敗:皮層型網絡善於處理「見過的」場景,但脊髓型反射的價值在於「沒見過的危險」。 3. 功耗災難:每個微米級的碰撞都要喚醒整個語義層做推理,系統會因為待機功耗而死機。
相比之下,分層設計讓每層只需優化自己的時間尺度——皮層不需要知道脊髓在做什麼,脊髓也不需要理解語義。這是一種「關注點分離(separation of concerns)」的硬體實現。
從工程到生物的反向借鑑
機器人設計者往往陷入一個陷阱:把大腦當成單一決策中心。但演化生物學告訴我們,大腦是層層堆疊的——最古老的腦幹(脊髓)控制呼吸與反射、中層的小腦控制平衡與協調、頂層的新皮層才處理複雜邏輯。
正是因為有這三層,人類在棒球飛來時能在 40 毫秒內閃躲——這個反應速度遠超視覺皮層的處理延遲(通常 200ms)。我們不是「決定」閃躲,而是脊髓自動做了。
NeuroVLA 將這個生物架構轉譯為代碼,結果是:機器人不再是「思考快的機械臂」,而是「有下意識的智能體」。
這對未來意味著什麼
過去 5 年,AI 競爭的焦點在「單一大模型的性能」——誰的 LLM 準確率更高、誰的視覺模型精度更好。但NeuroVLA 代表了一個悄然轉向:從「大」轉向「細分」、從「通用」轉向「分層專用」。
這意味著:
1. 模型架構的多樣化:未來的 AI 系統不再是單一范式(Transformer everything),而是多種小模型的協奏。 2. 邊緣計算的復興:脊髓級的決策應該在機器人本體上運行,不需要雲端連接。這對 5G / 邊緣晶片廠商有深遠影響。 3. 訓練方法論的變革:分層訓練(layer-wise training)會重新成為核心議題——每層用什麼損失函數、如何協調層間的目標衝突。