AI 採用追蹤與計量遊戲化：當績效指標成為員工優化的靶子

JPMorgan、Meta 砸十億美元導入 AI、卻用一個簡單指標（token 使用量）衡量成功——結果員工開始刻意灌水 AI 請求量、讓最原本想優化的指標變成廢紙一張。這不是新問題，卻在 AI 時代被放大到荒謬。

本篇 atom

計量遊戲化陷阱(Goodhart's Law / The Measure Becomes the Target)

當某個指標被選為衡量績效的標準時，該指標本身就會失去衡量績效的有效性——因為人們會優化指標而非優化真實目標。最早由統計學家 Goodhart 提出：『任何被用來控制的統計關係、一旦成為控制對象、就會失效。』

提出者：Charles Goodhart (1975)

員工決策樹：在追蹤指標下、員工面臨『誠實使用 vs 灌水使用』×『獲得晉升 vs 被淘汰』的四象限

—

推理鏈 · DNA chain

06 STEPS

原則 · 本篇核心

Goodhart 定律——任何被選為控制標準的指標、一旦成為控制對象、就會失去衡量價值

▸ 展開完整 6 步推理鏈（事件 → 觀察 → 模式 → 原則 → 應用 → 反例）

事件
JPMorgan、Meta 追蹤員工 AI token 使用量、納入績效評估與公開排行
觀察
使用量排行榜推出後、員工開始刻意灌水 token 消耗（tokenmaxxing）以提高排名
模式
指標越用來評估績效、就越被人刻意優化；優化指標本身而非優化真實目標
原則
Goodhart 定律——任何被選為控制標準的指標、一旦成為控制對象、就會失去衡量價值
其他應用

Multilateral lens

從不同板塊看這篇

Atomly 自動判斷這篇文章跟哪些 mental model 板塊相關、各從一個 lens 拆解。同一件事、不同視角。

觀察

員工看到 AI 使用排行榜後、從「我要完成工作」的內在動機、轉變為「我要衝高排名」的外在動機。

原則

外在報酬會替代內在動機（動機替代效應）；當排名公開時、社會比較與身份認同焦慮會被激發。

行動

設計任何追蹤系統時、先問『這會激發什麼心理偏誤？』而非假設人會理性回應指標。

深入「心理行為」板塊 →

出處：AI ROI 不能只看採用率：JPMorgan、Meta 推追蹤機制，為何引爆失真與隱私危機？ · TechOrange · 2026-06-04T07:47:30+00:00

#Goodhart定律#績效指標#激勵扭曲#AI採用#JPMorgan#Meta#計量遊戲化

事件背景

根據《Business Insider》報導，JPMorgan、Meta、KPMG 等大型企業近期針對員工 AI 工具使用頻率建立了內部追蹤儀表板。這些企業在 AI 軟體與 AI 代理系統投入數十億美元後，面臨一個核心問題：如何驗證這筆投資是否產生回報？

為了回答這個問題，企業選擇最簡單粗暴的指標：追蹤員工使用 AI 的頻率與方式。部分企業甚至將使用數據公開排行，讓員工彼此比較各自的 AI 採用程度。

計量遊戲化：好的指標變壞指標

當 AI 使用量變成績效評估與人力資源決策的依據時，一個可預測的現象發生了：員工開始優化指標本身、而非優化實際工作品質。

報導稱，部分員工開始刻意進行「token 灌水」（tokenmaxxing）——他們會故意發送不必要的 AI 請求、冗長的提示、重複查詢，以拉高自己在使用量排行榜上的排名。結果是：

**成本上升**：無謂的 token 消耗導致企業的 AI 支出增加
**生產力迷思**：使用量高不代表工作效率提升、反而可能降低
**指標失效**：原本想測量「AI 採納程度」的指標，現在測量的只是「有多少人願意作弊」

這正是經濟學家 Charles Goodhart 在 1975 年提出的警告：當某個統計關係被用來控制時，該關係本身就會失效。

為何企業還是這樣做？

企業為什麼選擇這麼容易被遊戲化的指標？主要原因有三：

1. 投資壓力：AI 支出巨大（數十億美元），董事會與高管必須有某種「可見化」的成功指標，最簡單的就是採用量 2. 測量難度：真正想測的是「AI 是否提升了生產力」，但這很難量化（需要對比員工產出質量、時間成本等），所以企業退而求其次 3. 可操作性：AI 平台（如 OpenAI API、內部代理系統）天生就能記錄 token 消耗、請求次數，取得成本低

亞馬遜過去曾因類似的績效排行榜制度引發內部不滿，甚至導致人才流失。但科技大廠似乎仍在重複同樣的錯誤。

深層問題：可測性與真實價值的鴻溝

這個現象揭露了一個根本矛盾：

**容易測的**：token 使用量、請求頻率、模型調用次數
**難測的**：生產力提升、決策品質改善、創意產出增長、成本真實節省

企業傾向於測量容易測的、忽視難測的。這樣做的代價是：指標本身變成被優化的遊戲，而真實目標被遺忘。

應對之道

要破解計量遊戲化陷阱，企業可以考慮：

1. 多指標評估：不只看使用量、還要看產出品質、時間節省、成本效益 2. 延時評估：不在短期內公布排行、減少短期作弊的動機 3. 目標透明化：明確告訴員工「我們想測的真正是什麼」（而非隱含地只看 token 量） 4. 抽樣稽核：定期檢查某些高排名員工的 AI 使用場景、確認是否真實有價值 5. 逆向設計：問「如果要破遊戲、員工會怎樣做」、再設計反制機制

Schumpeter 講創造性破壞時著眼於企業外部的技術革新；Goodhart 則揭露了企業內部的量化陷阱——當組織試圖用單一指標控制複雜現象時，就註定會失敗。

Counter View · Munger Inversion

1
「AI 採用追蹤只是提供透明資訊、員工作弊是個人操守問題而非系統設計缺陷」
— 企業人力資源部門
2
「token 灌水現象被媒體誇大、實際上多數員工仍會誠實使用 AI、生產力確實有提升」
— JPMorgan 企業發言人
3
「如果指標設計得當、優化指標就等同優化目標；Goodhart 定律不是絕對的」
— 數據科學與績效管理顧問

企業該如何設計 AI 投資評估機制、既能量化成果、又不會激發指標遊戲化？真實衡量 AI 生產力的指標存在嗎？

▶ 參考來源 (3)

articleGoodhart's Law and its Variants — Charles Goodhart (1975)
bookFooled by Randomness — Nassim Nicholas Taleb (2001)
articleThe Cobra Effect: Lessons on Unintended Consequences — Unknown

今日練習個人連結· 回想自己的經驗

登入收藏

想一個妳的工作或學習經驗：曾經因為某個被追蹤的指標（分數、銷售額、按讚數等）改變了妳的行為方式？那個改變是朝向真實目標走、還是只為了指標數字漂亮？描述 50-80 字。

💡 把這個練習帶到一天裡 — 下次走在路上、看新聞、跟人聊天時、想想能怎麼套用這個原則。

第 882/1000