Token 最大化的陷阱：當測量工具變成優化目標

當企業主管開始用員工的 AI 使用量排名人員表現，無意中就把一項「診斷指標」變成了「獎勵指標」——結果呢？員工狂用 AI 做沒用的事、成本暴增、產出反而下滑。

本篇 atom

目標替代（Goodhart 定律）(Goodhart's Law)

當一項措施本身成為目標時，它就不再是好的措施。用於監測績效的指標一旦被當作目標最大化，就會失去原本的預測力與信息價值，引發扭曲的激勵機制與資源錯配。

提出者：Charles Goodhart（英國經濟學家） (1975)

古德哈特陷阱的自我強化迴路

[loop: no nodes]

推理鏈 · DNA chain

06 STEPS

原則 · 本篇核心

古德哈特定律（Goodhart's Law）：測量工具一旦成為優化目標、就會失去預測力與信息價值

▸ 展開完整 6 步推理鏈（事件 → 觀察 → 模式 → 原則 → 應用 → 反例）

事件
企業用 token 消耗量排名員工、創造 tokenmaxxing 競賽
觀察
員工為了排名開始濫用 AI、做無謂查詢、產出品質反而下滑
模式
當一項測量指標被轉變為獎勵目標時、人們開始最大化指標而非原本的實際目的
原則
古德哈特定律（Goodhart's Law）：測量工具一旦成為優化目標、就會失去預測力與信息價值
其他應用
NHS 手術排隊時間指標 → 醫院做不必要手術；銀行放貸筆數指標 → 次級房貸危機；軟體代碼行數指標 → 冗長低效代碼
反例 / 限制
反方觀點：某些指標化工作確實能提升紀律、關鍵是要設計多維度指標避免單點遊戲化、而不是完全廢止量化管理

Multilateral lens

從不同板塊看這篇

Atomly 自動判斷這篇文章跟哪些 mental model 板塊相關、各從一個 lens 拆解。同一件事、不同視角。

觀察

古德哈特定律源自 1975 年英國貨幣政策辯論：政策制定者用「貨幣供應量」作工具，結果金融機構開始規避監管計算方式，指標失效。

原則

經濟體系中激勵與測量相互作用，會形成逆向反饋迴路。制定者選中的指標越容易被遊戲化，失效速度越快。

行動

企業設計 KPI 時，預留 6-12 月檢視週期、一旦發現員工行為開始圍繞指標優化、立即替換指標或加入對沖維度。

深入「經濟金finansal」板塊 →

出處：AI 用越多不代表越有價值：當 token 成本升高，企業決策者開始追問真正 ROI · TechOrange · 2026-06-12T02:33:19+00:00

#古德哈特定律#激勵扭曲#績效管理#AI 成本#指標化陷阱#組織行為#經濟學

事件

矽谷從 2025 年底開始掀起「Token 最大化」（tokenmaxxing）風潮，許多科技公司內部建立排行榜，根據員工消耗的 AI token 數量進行排名與激勵。然而到了 2026 年中，這股風氣開始遭到企業高層質疑。《Business Insider》在 Mistral AI 峰會上訪問四位企業決策者，他們一致表示：衡量 AI 投資報酬率（ROI）時，消耗 token 數量根本不是重點。Replit 總裁暨 AI 負責人 Michele Catasta 更在 Web Summit Rio 大會上直言，用 token 消耗量排名員工「非常反烏托邦」，因為 token 用量與實際業務貢獻完全不成正比。

為什麼這很重要

這個現象完美詮釋了英國經濟學家查爾斯·古德哈特（Charles Goodhart）在 1975 年提出的一個關鍵警告：當一項測量指標被當作優化目標時，它就停止成為好的測量指標。

在 Token 最大化的情況下：

**原本用途**：token 消耗量是企業診斷「AI 被採用得有多廣」的一個信號
**變質後**：員工開始為了排名而最大化 token 使用，導致：
- 拿簡單問題餵給 AI 重複查詢（本該用快速搜尋或記憶體就能解決）
- 用 AI 生成沒人看的文件、報表、郵件
- 團隊內部的「AI 使用競賽」取代了實際協作
- 成本攀升，但生產力停滯甚至下滑

古德哈特定律的經典案例

這不是新現象。歷史上有無數例子：

1. 醫院手術量指標：英國 NHS 曾用「手術排隊時間」評估醫院效率。結果醫院開始做大量不必要的小手術來刷數字，反而浪費資源。

2. 軟體開發的代碼行數：某些公司用「每月寫了多少行代碼」評估程式設計師。結果工程師開始寫冗長、低效的代碼；真正有效率的工程師反而被低估。

3. 銀行貸款數量指標：銀行曾用「放貸筆數」評估業務部門。結果為了衝數字，貸給信用不良的客戶，最後 2008 年金融危機爆發。

4. 員工考勤打卡：公司用「準時打卡次數」評估員工，結果員工準時打卡、然後偷偷摸魚；真正會遠端高效工作的員工反而被懷疑。

為什麼企業高層現在開始轉向

Mistral AI 峰會上受訪的四位企業決策者，改口強調應該追蹤的真實指標：

**實際商業成果**（效率提升百分比、成本節省多少、新產品上市速度）
**員工滿意度與留任率**（如果 AI 工具讓人更累、留不住人才就是負收益）
**品質指標**（產出成果的缺陷率、客戶滿意度）
**創新指標**（有多少新想法源自 AI 輔助、而非重複性工作的自動化）

Token 消耗量本身，退回到它應有的位置：診斷工具，而非目標。就像醫生用「體溫」來診斷是否發燒，但不會為了讓患者體溫更高而給藥。

對企業決策的啟示

1. 指標要多維度：單一指標最容易被遊戲化。用複數指標、讓它們相互制衡。

2. 區分診斷指標 vs 獎勵指標：診斷指標用來理解現狀，獎勵指標決定誰拿獎金。如果把診斷指標當獎勵，就會被扭曲。

3. 定期檢查指標的「有效期」：好指標會隨著時間老化。當員工開始遊戲化某個指標時，它就該退休了。

4. AI 投資應該用結果反推：先問「我們想要什麼結果」（更快上市、更低成本、更高品質），再問「AI 在這個過程中起了什麼作用」，最後才設定合理的監測指標。

Counter View · Munger Inversion

1
「單純指標化是有害的，但完全拒絕量化也會導致模糊決策。多維度指標設計（balanced scorecard）能規避古德哈特陷阱。」
— Robert Kaplan & David Norton（平衡記分卡之父）
2
「Token 最大化只是矽谷的短期過頭行為，隨著組織成熟自然會自我糾正。不需要過度解讀。」
— 某些矽谷人力資源主管

如果 AI ROI 本質上難以精確量化（因為涉及長期創新、人員滿意度等軟指標），企業應該用什麼替代方案來做資源配置決策？

▶ 參考來源 (3)

bookCapitalism and Arithmetic: The New Math of the 16th Century — Charles Goodhart (編著) (1975)
paperThe Balanced Scorecard: Translating Strategy into Action — Robert Kaplan & David Norton (1992)
bookThinking, Fast and Slow — Daniel Kahneman (2011)

今日練習個人連結· 回想自己的經驗

登入收藏

想一個妳工作或生活中正在被優化的指標（例如銷售目標、點擊率、完成度百分比）。這個指標有沒有開始激勵人們做一些『刷指標但無價值』的事？寫下妳的觀察。

💡 把這個練習帶到一天裡 — 下次走在路上、看新聞、跟人聊天時、想想能怎麼套用這個原則。

第 685/1000