Amazon 工程師為 KPI 狂刷 MeshClaw:內部排行榜逼出「tokenmaxxing」亂象

Amazon 工程師為 KPI 狂刷 MeshClaw:內部排行榜逼出「tokenmaxxing」亂象

Amazon 工程師為 KPI 狂刷 MeshClaw:內部排行榜逼出「tokenmaxxing」亂象

當 KPI 遇上 AI:Amazon 內部的荒謬競賽

Amazon 最近被爆出一件超離譜的事:工程師們為了在內部 AI 工具排行榜上拿高分,開始瘋狂「刷存在」。不是刷程式碼,是刷 AI 的「token 使用量」——就像我們以前在網咖拚線上遊戲等級那樣,只是這次拚的是誰叫 AI 寫的廢話比較多。

事情是這樣開始的

Amazon 去年推出了內部 AI 平台 MeshClaw,靈感來自他們的開源專案 OpenClaw。這個工具讓工程師可以在公司內部伺服器上跑自己的 AI 助理,聽起來很酷對吧?

但問題出在 KPI。

Amazon 給工程師訂了一個目標:「80% 的工程師每週都要用 AI 工具」。為了追蹤進度,他們搞了個排行榜,專門顯示誰用的 token(你可以想成 AI 的「字數」)最多。

結果?

排行榜變成遊戲排行榜

根據三位 Amazon 員工爆料,現在內部出現了「tokenmaxxing」文化:

  • 有人叫 AI 重寫已經寫好的程式碼,只為了消耗更多 token
  • 有人讓 AI 翻譯同一份文件 10 次,每次用不同語氣
  • 最扯的是有人叫 AI 幫忙寫「如何用 AI 寫程式」的教學,然後再把教學餵回去給 AI 看

就像以前我們在網咖為了衝等級,明明任務做完了還要繼續打怪練功,只是這次打的怪是「AI 的 token 上限」。

為什麼大家這麼拚?

因為有些主管真的會看這個排行榜

雖然 Amazon 官方說「token 用得多不代表表現好」,但根據內部消息,部分主管私下會把排行榜當成參考指標。這就像學校老師說「段考成績不重要」,但家長還是會偷偷比較誰家小孩考比較高。

一位工程師透露:「壓力真的很大。大家都知道老闆在看,所以就算 AI 給的答案根本沒用,我們還是得用。」

更荒謬的副作用

這場「tokenmaxxing」競賽還帶來一堆副作用:

1. 工程師反而更不信任 AI 很多人其實擔心 AI 會「幻覺」(就是亂講話),但為了衝 KPI 還是得用。有位工程師說:「我根本不敢讓 AI 自動改程式碼,但為了不被老闆盯上,我還是得假裝很常用。」

2. 浪費公司資源 根據估算,這種無意義的 AI 使用量讓 Amazon 每月多花 超過 500 萬台幣 的運算成本。這錢拿去買雞排請全公司吃,可能還比較能提升士氣。

3. 團隊合作變調 原本大家會分享好用的 AI 指令,現在變成互相保密,生怕別人 token 數超過自己。

Amazon 的尷尬回應

面對爆料,Amazon 的公關回應很官方:「我們鼓勵員工探索 AI 工具,但評估標準絕對不是看 token 用量。」

但根據內部員工說法,他們已經悄悄把把排行榜從「全公司可見」改成「只有主管看得到」。這操作就像老師把公布欄的成績單收起來,但家長還是可以去辦公室問。

給台灣公司的啟示

這件事對台灣公司有三個重要提醒:

1. KPI 設計要更聰明 不要只看「用了多少次」,要看「解決了什麼問題」。就像我們不會因為醫生開很多藥就覺得他很厲害,對吧?

2. AI 導入需要教育 Amazon 的問題部分來自員工不知道怎麼正確用 AI。台灣公司在導入 AI 工具時,應該同時提供培訓,麼用才有效率。

3. 透明比排名更重要 如果主管真的要看使用量,應該公開標準,而不是讱讓大家猜。就像學測成績怎麼算,至少會給個公式。

下一步怎麼辦?

據說 Amazon 正在考慮把 KPI 改成「用 AI 解決的實際問題數」,但工程師們已經在討論「如何快速製造看起來很厲害的問題來讓 AI 解」。

看來這場貓捉老鼠的遊戲,還會繼續下去。


現在就打開你的公司群組,問問大家:我們的 AI KPI 是不是也在製造一樣的荒謬?