機器人在動手之前就預測觸感：從「看見再做」到「想象再做」

當機器人不再被動等待手指按下去物體會怎樣才做決定，而是在真正接觸前就在腦裡「預演」整個觸感流程——這就是為什麼 HTD 讓人型機器人摺衣成功率從 60% 跳到 89%。

本篇 atom

預測性感知(Predictive Sensing)

智能系統不必等待完整的觀察信息到達才做決策，而是通過建模未來物理狀態、在行動前就預測可能的感官反饋，從而在不確定環境中提高決策效率和執行精度。這是一種從「被動接收信息→執行」改為「主動預測未來→邊預測邊修正」的認知範式轉移。

提出者：HTD 框架（CMU × Bosch AI Center） (2026)

機器人精細操作成功率曲線：傳統方案vs HTD方案。HTD 透過預測層大幅縮短成功率從低到可部署的時間。

推理鏈 · DNA chain

06 STEPS

原則 · 本篇核心

預測性感知優於被動感知——智能系統應該在真正接觸世界前，先在內部模型裡預演結果

▸ 展開完整 6 步推理鏈（事件 → 觀察 → 模式 → 原則 → 應用 → 反例）

事件
HTD 系統用觸覺預測讓人型機器人摺衣成功率從 60% 提升到 89%
觀察
不是感測器增多、而是加入了「預測未來觸感」的決策層，改變了認知流程
模式
從「被動接收感官訊號→執行」改為「主動預測未來狀態→邊預測邊修正」
原則
預測性感知優於被動感知——智能系統應該在真正接觸世界前，先在內部模型裡預演結果
其他應用
人類小腦實時預測觸感才能精確動作；自駕車預測行人軌跡才能提前煞車；圍棋 AI 預測未來局面才能贏
反例 / 限制
但並非所有環境都可預測——黑天鵝事件無法被事前模型捕捉，純預測會導致系統在異常情況下失效

Multilateral lens

從不同板塊看這篇

Atomly 自動判斷這篇文章跟哪些 mental model 板塊相關、各從一個 lens 拆解。同一件事、不同視角。

觀察

HTD 不只加感測器，而是在視覺→觸覺間插入「預測層」Transformer，學的是物理因果律而非純粹視覺特徵。

原則

多模態融合的關鍵不是模態數量，而是能否建立模態間的因果預測關係。Transformer 的本質是預測性建模。

行動

評估機器人系統時，不要只看感測器配置，要問：它能預測多步之後的物理狀態嗎？預測延遲是多少？

深入「AI/科技」板塊 →

出處：機器人在動手之前就預測觸感，HTD 技術讓人型機器人摺衣、端茶成功率大躍進 · TechOrange · 2026-06-05T01:47:46+00:00

#機器人#預測性感知#Transformer#觸覺感測#多模態融合#CMU#內部世界模型

事件背景

人型機器人在過去五年的視覺與步態能力進步飛速，但一旦涉及細微手部操作——摺衣、疊積木、倒水——成功率會突然崖降。問題不在機械結構，而在認知。傳統機器人系統的決策流程是：看物體 → 規劃路徑 → 執行 → 碰撞時才發現預測錯了 → 重新計算。這個流程慢且錯誤率高。

CMU 與博世人工智慧中心合作開發的 HTD 系統（Humanoid Transformer with Touch Dreaming，融合觸覺潛在預測的人型機器人 Transformer 框架）改變了這個邏輯。它讓機器人在動手之前，就用神經網路模型「想象」接觸物體時會感受到什麼樣的力度、材質反饋、滑動阻力。

核心技術邏輯

傳統機器人視覺系統只看「表面」：物體顏色、形狀、位置。但實際操作時，決定成敗的往往是看不見的：布料有多軟、陶杯有多脆、手指應該施多大力度。

HTD 的創新在於引入分散式觸覺感測（distributed tactile sensing）——在機器人的手掌、手指、前臂鑲嵌數百個微型壓力感測器。但關鍵不是感測器本身，而是預測層：系統用 Transformer 架構建立了「觸覺-動作對應模型」——輸入是視覺影像 + 初步動作指令，輸出是預測的觸覺反饋序列。

簡單說：機器人在「真正伸手」前，已經在內部模擬過 100 次這個動作會感覺怎樣。如果預測顯示「手指會在第 200 毫秒滑開」，它會自動調整施力角度。這不是事後補救，而是事前預防。

實驗成果

在真實環境測試中： - 摺衣任務：成功率從 ~60% 提升到 89% - 精準插入（如將筷子插入盒子）：成功率 94% - 易碎物品搬運（陶杯）：成功率 87% - 液體倒取（用勺子舀、倒杯水）：成功率達 91%

這些數字看似小幅提升，但在機器人領域代表著從「偶爾成功」到「大多數時候成功」的轉折點。在工業應用中，差 30% 就是差「能部署」和「不能部署」。

為什麼這是原則性突破

HTD 體現了一個超越機器人領域的認知原則：預測性感知優於被動感知。

人類之所以能在黑暗中摸索而不摔碎東西，不是因為眼睛好，而是因為大腦在每一次動作前都在「模擬」可能的觸感反饋。妳的小腦（cerebellum）實時運作著一個內部預測模型，讓妳在抓杯子時自動調整手指力度——不是感覺到快摔才調整，而是在接觸前就預知。

HTD 正是把這個生物演化幾百萬年才完成的機制，用現代 AI 架構（Transformer + 分散式感測）在機器人身上重現。

廣泛的含義

在製造領域：當機器人能預測觸感，就能處理材質差異大的工作——同一條產線既能組裝電子產品也能打包食品，而不必為每種物料重新編程。

在醫療領域：手術機器人能否預測「刀刃切進組織時的阻力變化」，就直接關係到手術精度與患者安全。

在家用場景：為什麼人型機器人還進不了家庭？因為每個家庭的盤子、衣服、食材質感都不同。預測性感知讓機器人能自適應各種家居環境。

技術殊途同歸

これは HTD だけの話ではない。同時期的研究——OpenAI 的機器人政策梯度學習（policy gradient learning）、DeepMind 的內部世界模型（world model）——都在朝同一個方向走：讓 AI 系統在真正執行前建立內部預測模型。這不是巧合，而是深度學習時代一個根本的方向性轉變。

（實際上 Transformer 架構本身就是預測性的——它通過預測下一個 token，學到了語言的因果結構。現在我們在把同樣的邏輯用在物理世界上。）

仍未解決的問題

HTD 目前的局限： 1. 訓練成本高：需要大量帶標籤的「觸覺-動作」對應數據，目前只有 CMU、Boston Dynamics 等少數機構掌握。 2. 環境外推能力有限：在訓練環境外的物料上，預測精度會下降（遷移學習問題）。 3. 實時計算複雜度：邊預測邊執行需要低延遲，目前需要連接伺服器、不能完全本地化。

但這些都是工程問題，不是原理問題。隨著感測器成本下降、資料集開源化，HTD 的變體預期會在 2027-2028 年開始進入工業機器人和高端服務機器人市場。

Counter View · Munger Inversion

1
「分散式觸覺感測會大幅提升機器人硬體成本與維修複雜度，ROI 未必正。」
— 傳統工業機器人廠商（ABB、KUKA）的成本-效益論
2
「89% 成功率仍不足以在真實工業環境部署，容錯率需要 99.5% 以上。」
— 製造業品質管制 (Six Sigma) 標準
3
「預測模型訓練需要海量標籤資料，而標籤方法還沒標準化，存在資料採集瓶頸。」
— 機器學習資料工程文獻

預測性感知在高動態環境（如手術室、災難救援）中會優於被動感知嗎？還是非結構化環境下的突發性會讓預測失效？

▶ 參考來源 (3)

paperHumanoid Transformer with Touch Dreaming — CMU × Bosch Center for AI (2026)
bookThinking, Fast and Slow — Daniel Kahneman (2011)
paperWorld Models — David Ha, Jürgen Schmidhuber (2018)

今日練習個人連結· 回想自己的經驗

登入收藏

在妳自己的工作或學習中，找一個現在還是「被動反應型」的決策流程（例如：看到問題才處理），試著設計一個「預測型」的版本（例如：預測未來可能的問題、提前部署對策）。這個流程改造會遇到什麼實際困難？成本與效益如何抵衡？

💡 把這個練習帶到一天裡 — 下次走在路上、看新聞、跟人聊天時、想想能怎麼套用這個原則。

第 913/1000