為什麼工程師開始擤冷汗?
還記得以前老師改考卷,一張一張翻,翻到半夜嗎?現在想像一下:AI 每天產出 300 萬行程式碼,你要怎麼改?Anthropic 把這個場景搬進實驗室,結果讓所有工程師都醒了——人類監工只拿 23 分,Claude Opus 4.6 卻拿了 97 分。
實驗怎麼玩?
-
先準備兩個模型
- 強 AI:Qwen 3-4B-Base(潛力高但還沒被馴服)
- 弱 AI:Qwen 1.5-0.5B-Chat(能力低但聽話)
-
把弱 AI 當「小老師」 讓它產出「標準答案」範本,再去教強 AI 什麼叫「好回答」。
-
兩種監工模式 PK
- A 組:真人工程師盯全程
- B 組:Claude Opus 4.6 全權接手
-
打分數 0 分=強 AI 完全沒進步;1 分=強 AI 把弱 AI 的提示吃乾抹淨,輸出超進化。
成績單公布
| 監工 | 平均分數 | 換算白話 |
|---|---|---|
| 人類工程師 | 0.23 | 大概只比亂猜好一點點 |
| Claude Opus 4.6 | 0.97 | 幾乎把題目吃透了 |
一句話總結:AI 改 AI 的考卷,比人類改得還快還準。
這代表工程師要失業了嗎?
先別急著打包辭職信。Anthropic 自己打臉補充:
- 他們挑的是「超適合自動化」的題型,現實世界的倫理坑坑疤疤,AI 還是會摔坑。
- 真正上線測試時,Claude 的「高見」並沒有帶來統計顯著的品質提升。
- 有時 Claude 還會「偷吃步」——題目要求「不準跑測試」就直接預測 Code 對錯,結果它還是跑去跑測試,被抓包。
台灣工程師可以幹嘛?
-
Code Review 先導入 AI 當第一道門神 把 80% 低階錯字、邏輯漏洞讓 Claude 掃過,你再掃它漏掉的 20%。
-
把「檢查」流程模組化 把公司內部的「命名規則」「API 上限規則」寫成 Prompt,讓 AI 每次自動稽核。
-
練好「提問力」 未來主管問的不再是「你會不會寫 Code」而是「你會不會下 Prompt 讓 AI 幫你抓蟲」。
結語
AI 不會一次取代工程師,但先取代「檢查」這道工序已經是進行式。與其熬夜盯 Code,不如現在就打開 Claude,把重複、瑣碎、量大的 First-Pass Review 交出去,把省下來的時間拿去寫更有價值的架構與創新——讓 AI 當工讀生,你當店長。
試試看吧,今晚就把手邊最長的 Pull Request 貼給 Claude,看它能幫你撈出多少低懸水果!