事件背景
根據《Business Insider》報導,JPMorgan、Meta、KPMG 等大型企業近期針對員工 AI 工具使用頻率建立了內部追蹤儀表板。這些企業在 AI 軟體與 AI 代理系統投入數十億美元後,面臨一個核心問題:如何驗證這筆投資是否產生回報?
為了回答這個問題,企業選擇最簡單粗暴的指標:追蹤員工使用 AI 的頻率與方式。部分企業甚至將使用數據公開排行,讓員工彼此比較各自的 AI 採用程度。
計量遊戲化:好的指標變壞指標
當 AI 使用量變成績效評估與人力資源決策的依據時,一個可預測的現象發生了:員工開始優化指標本身、而非優化實際工作品質。
報導稱,部分員工開始刻意進行「token 灌水」(tokenmaxxing)——他們會故意發送不必要的 AI 請求、冗長的提示、重複查詢,以拉高自己在使用量排行榜上的排名。結果是:
- **成本上升**:無謂的 token 消耗導致企業的 AI 支出增加
- **生產力迷思**:使用量高不代表工作效率提升、反而可能降低
- **指標失效**:原本想測量「AI 採納程度」的指標,現在測量的只是「有多少人願意作弊」
這正是經濟學家 Charles Goodhart 在 1975 年提出的警告:當某個統計關係被用來控制時,該關係本身就會失效。
為何企業還是這樣做?
企業為什麼選擇這麼容易被遊戲化的指標?主要原因有三:
1. 投資壓力:AI 支出巨大(數十億美元),董事會與高管必須有某種「可見化」的成功指標,最簡單的就是採用量 2. 測量難度:真正想測的是「AI 是否提升了生產力」,但這很難量化(需要對比員工產出質量、時間成本等),所以企業退而求其次 3. 可操作性:AI 平台(如 OpenAI API、內部代理系統)天生就能記錄 token 消耗、請求次數,取得成本低
亞馬遜過去曾因類似的績效排行榜制度引發內部不滿,甚至導致人才流失。但科技大廠似乎仍在重複同樣的錯誤。
深層問題:可測性與真實價值的鴻溝
這個現象揭露了一個根本矛盾:
- **容易測的**:token 使用量、請求頻率、模型調用次數
- **難測的**:生產力提升、決策品質改善、創意產出增長、成本真實節省
企業傾向於測量容易測的、忽視難測的。這樣做的代價是:指標本身變成被優化的遊戲,而真實目標被遺忘。
應對之道
要破解計量遊戲化陷阱,企業可以考慮:
1. 多指標評估:不只看使用量、還要看產出品質、時間節省、成本效益 2. 延時評估:不在短期內公布排行、減少短期作弊的動機 3. 目標透明化:明確告訴員工「我們想測的真正是什麼」(而非隱含地只看 token 量) 4. 抽樣稽核:定期檢查某些高排名員工的 AI 使用場景、確認是否真實有價值 5. 逆向設計:問「如果要破遊戲、員工會怎樣做」、再設計反制機制
Schumpeter 講創造性破壞時著眼於企業外部的技術革新;Goodhart 則揭露了企業內部的量化陷阱——當組織試圖用單一指標控制複雜現象時,就註定會失敗。