為什麼機器人需要「脊髓反射」——分層架構的三級進化

當機器人還在用單層神經網絡思考「我應該躲開這個碰撞」，智平方的 NeuroVLA 卻讓脊髓在 20 毫秒內自主完成反應——為什麼模仿大腦最古老的部分，反而是最難的技術瓶頸？

本篇 atom

分層架構的適應性優化(Hierarchical Architecture for Adaptive Optimization)

複雜系統的最優設計不是單一中心決策、而是多層級分工——高層處理抽象邏輯、低層處理即時反應、層級間非線性協作。每層有獨立決策權與時間尺度、形成自適應的功能堆疊。

提出者：Warren McCulloch & Donald Hebb（神經科學）; Herbert Simon（組織設計） (1943)

決策時間尺度譜系：皮層（長期規劃）→ 小腦（動作協調）→ 脊髓（即時反射）

推理鏈 · DNA chain

06 STEPS

原則 · 本篇核心

複雜適應系統的最優設計是多層級分工、而非單一中心決策；層級間應有非線性協作與時間獨立性

▸ 展開完整 6 步推理鏈（事件 → 觀察 → 模式 → 原則 → 應用 → 反例）

事件
NeuroVLA 實現三層架構（皮層 100ms、小腦 10ms、脊髓 1ms），碰撞反應延遲降至 20ms
觀察
單層大模型無法同時兼顧長期規劃與毫秒級反應、必然在某個維度失敗
模式
生物系統（人類大腦）靠分層來解決時間尺度不匹配、每層獨立優化自己的時間常數
原則
複雜適應系統的最優設計是多層級分工、而非單一中心決策；層級間應有非線性協作與時間獨立性
其他應用
組織設計（CEO 不做日常決策、員工自主應變）、軟體架構（微服務 vs 單體）、神經網路設計（分層訓練 vs 端對端）
反例 / 限制
完全分層可能導致層間協調成本上升、反而降低整體效率；某些任務適合單層統一優化

Multilateral lens

從不同板塊看這篇

Atomly 自動判斷這篇文章跟哪些 mental model 板塊相關、各從一個 lens 拆解。同一件事、不同視角。

觀察

單層 Transformer 在推理延遲與功耗間無法同時優化；分層架構讓每層獨立調整時間常數與模型大小。

原則

模型架構設計要考慮時間複雜度與空間複雜度的權衡；不同決策任務應有不同層級的模型。

行動

評估新 AI 模型時、不只看準確率、要問「它在妳的硬體約束下、能達到多快的推理延遲與多低的功耗」。

深入「AI/科技」板塊 →

出處：智平方发布类脑式具身智能系统NeuroVLA · 36氪 · 2026-06-15T02:58:12+00:00

#具身智能#神經網絡架構#分層設計#機器人#邊緣計算#NeuroVLA

事件

2026 年 6 月，智平方發佈了「皮層—小腦—脊髓」三級類腦架構的具身智能系統 NeuroVLA。這套系統將機器人運動抖動降低 75% 以上，並在碰撞後 20 毫秒內完成反射應答。

為什麼這件事重要

過去 15 年的深度學習浪潮中，機器學習架構往往是「一張大網」——單層或少層的卷積網絡或 Transformer，所有決策都經過同一個瓶頸。這套架構在棋類遊戲（AlphaGo）、語言模型（GPT）上無敵，但在實體世界的具身智能上卻暴露了致命弱點：

1. 延遲成本太高：一個決策需要經過 200-500 毫秒的完整推理迴路，此時機器人已經撞上障礙物了。 2. 功耗浪費：所有動作都需要喚醒完整的語義理解層，導致待機功耗是「活著」的成本。 3. 魯棒性差：單層網絡對分布外事件（out-of-distribution）無防禦，一個意外碰撞導致整個系統重新規劃路徑。

智平方的三層設計回歸生物學——人類脊髓就是「下意識決策中心」。當妳的手接觸熱源時，收縮反射在脊髓層面完成，不需要大腦確認、更不需要妳思考「我應該縮手」。這個迴路的延遲只有 50 毫秒。

架構分工邏輯

皮層（高層規劃、低頻率 100ms） - 語義理解與長期任務規劃 - 決策時間：100-500 毫秒 - 範例：「我要把這個杯子放到桌子上」

小腦（中層協調、中頻率 10-20ms） - 動作轨跡的平滑修正與動態調整 - 決策時間：10-50 毫秒 - 範例：手移動時自動調整重力補償、保持杯子水平

脊髓（低層反射、毫秒級 1-20ms） - 碰撞檢測、本體感受回饋、安全反應 - 決策時間：1-20 毫秒 - 範例：接觸障礙物立刻停止、完全不需要皮層批准

這三層的時間尺度相差 50 倍——脊髓在毫秒級自主運作，不是等待皮層下令。

為什麼單層無法做到

假設妳用一個 100 層 Transformer 做機器人決策：

1. 訓練困難：妳需要為「反射」行為也標註標籤，但反射動作本質上是應急，無法被單純的監督學習捕捉。 2. 泛化失敗：皮層型網絡善於處理「見過的」場景，但脊髓型反射的價值在於「沒見過的危險」。 3. 功耗災難：每個微米級的碰撞都要喚醒整個語義層做推理，系統會因為待機功耗而死機。

相比之下，分層設計讓每層只需優化自己的時間尺度——皮層不需要知道脊髓在做什麼，脊髓也不需要理解語義。這是一種「關注點分離（separation of concerns）」的硬體實現。

從工程到生物的反向借鑑

機器人設計者往往陷入一個陷阱：把大腦當成單一決策中心。但演化生物學告訴我們，大腦是層層堆疊的——最古老的腦幹（脊髓）控制呼吸與反射、中層的小腦控制平衡與協調、頂層的新皮層才處理複雜邏輯。

正是因為有這三層，人類在棒球飛來時能在 40 毫秒內閃躲——這個反應速度遠超視覺皮層的處理延遲（通常 200ms）。我們不是「決定」閃躲，而是脊髓自動做了。

NeuroVLA 將這個生物架構轉譯為代碼，結果是：機器人不再是「思考快的機械臂」，而是「有下意識的智能體」。

這對未來意味著什麼

過去 5 年，AI 競爭的焦點在「單一大模型的性能」——誰的 LLM 準確率更高、誰的視覺模型精度更好。但NeuroVLA 代表了一個悄然轉向：從「大」轉向「細分」、從「通用」轉向「分層專用」。

這意味著：

1. 模型架構的多樣化：未來的 AI 系統不再是單一范式（Transformer everything），而是多種小模型的協奏。 2. 邊緣計算的復興：脊髓級的決策應該在機器人本體上運行，不需要雲端連接。這對 5G / 邊緣晶片廠商有深遠影響。 3. 訓練方法論的變革：分層訓練（layer-wise training）會重新成為核心議題——每層用什麼損失函數、如何協調層間的目標衝突。

技術挑戰與開放問題

Counter View · Munger Inversion

1
「單層模型在未來訓練技術進步下、通過蒸餾與量化、可以達到分層系統的延遲與功耗指標、無需複雜化架構。」
— Hinton / 大模型優化派
2
「分層架構的層間協調與通訊開銷、在實際系統中往往超過分層帶來的收益；簡單的端對端學習反而更高效。」
— 深度學習實証派

如果我們能讓單層模型達到分層系統的性能、那分層的本質優勢是什麼？是架構還是訓練方法論？

▶ 參考來源 (3)

paperThe Organization of Behavior — Donald Hebb (1949)
bookThe Sciences of the Artificial — Herbert Simon (1969)
paperBiological Neural Networks in Invertebrate Neuroethology and Robotics — Beer, Chiel, Gallagher (1992)

今日練習跨域遷移· 想另一個領域的例子

登入收藏

找一個妳熟悉的系統（公司、軟體、家務流程），分析它是單層還是分層決策。如果是單層，試著識別「什麼決策被迫等待長流程、因此失敗了」；如果是分層，試著找出「層間協調成本是否超過收益」。寫下一個具體改進方案。

💡 把這個練習帶到一天裡 — 下次走在路上、看新聞、跟人聊天時、想想能怎麼套用這個原則。

第 582/1000