事件
矽谷從 2025 年底開始掀起「Token 最大化」(tokenmaxxing)風潮,許多科技公司內部建立排行榜,根據員工消耗的 AI token 數量進行排名與激勵。然而到了 2026 年中,這股風氣開始遭到企業高層質疑。《Business Insider》在 Mistral AI 峰會上訪問四位企業決策者,他們一致表示:衡量 AI 投資報酬率(ROI)時,消耗 token 數量根本不是重點。Replit 總裁暨 AI 負責人 Michele Catasta 更在 Web Summit Rio 大會上直言,用 token 消耗量排名員工「非常反烏托邦」,因為 token 用量與實際業務貢獻完全不成正比。
為什麼這很重要
這個現象完美詮釋了英國經濟學家查爾斯·古德哈特(Charles Goodhart)在 1975 年提出的一個關鍵警告:當一項測量指標被當作優化目標時,它就停止成為好的測量指標。
在 Token 最大化的情況下:
- **原本用途**:token 消耗量是企業診斷「AI 被採用得有多廣」的一個信號
- **變質後**:員工開始為了排名而最大化 token 使用,導致:
- - 拿簡單問題餵給 AI 重複查詢(本該用快速搜尋或記憶體就能解決)
- - 用 AI 生成沒人看的文件、報表、郵件
- - 團隊內部的「AI 使用競賽」取代了實際協作
- - 成本攀升,但生產力停滯甚至下滑
古德哈特定律的經典案例
這不是新現象。歷史上有無數例子:
1. 醫院手術量指標:英國 NHS 曾用「手術排隊時間」評估醫院效率。結果醫院開始做大量不必要的小手術來刷數字,反而浪費資源。
2. 軟體開發的代碼行數:某些公司用「每月寫了多少行代碼」評估程式設計師。結果工程師開始寫冗長、低效的代碼;真正有效率的工程師反而被低估。
3. 銀行貸款數量指標:銀行曾用「放貸筆數」評估業務部門。結果為了衝數字,貸給信用不良的客戶,最後 2008 年金融危機爆發。
4. 員工考勤打卡:公司用「準時打卡次數」評估員工,結果員工準時打卡、然後偷偷摸魚;真正會遠端高效工作的員工反而被懷疑。
為什麼企業高層現在開始轉向
Mistral AI 峰會上受訪的四位企業決策者,改口強調應該追蹤的真實指標:
- **實際商業成果**(效率提升百分比、成本節省多少、新產品上市速度)
- **員工滿意度與留任率**(如果 AI 工具讓人更累、留不住人才就是負收益)
- **品質指標**(產出成果的缺陷率、客戶滿意度)
- **創新指標**(有多少新想法源自 AI 輔助、而非重複性工作的自動化)
Token 消耗量本身,退回到它應有的位置:診斷工具,而非目標。就像醫生用「體溫」來診斷是否發燒,但不會為了讓患者體溫更高而給藥。
對企業決策的啟示
1. 指標要多維度:單一指標最容易被遊戲化。用複數指標、讓它們相互制衡。
2. 區分診斷指標 vs 獎勵指標:診斷指標用來理解現狀,獎勵指標決定誰拿獎金。如果把診斷指標當獎勵,就會被扭曲。
3. 定期檢查指標的「有效期」:好指標會隨著時間老化。當員工開始遊戲化某個指標時,它就該退休了。
4. AI 投資應該用結果反推:先問「我們想要什麼結果」(更快上市、更低成本、更高品質),再問「AI 在這個過程中起了什麼作用」,最後才設定合理的監測指標。