Claude 4.6 監工 AI 實驗：人類 0.23 分、AI 0.97 分，Code Review 先被取代

Claude 4.6 監工 AI 實驗：人類 0.23 分、AI 0.97 分，Code Review 先被取代

2026年4月16日 · 4 分鐘閱讀

Claude 4.6 監工 AI 實驗：人類 0.23 分、AI 0.97 分，Code Review 先被取代

為什麼工程師開始擤冷汗？

還記得以前老師改考卷，一張一張翻，翻到半夜嗎？現在想像一下：AI 每天產出 300 萬行程式碼，你要怎麼改？Anthropic 把這個場景搬進實驗室，結果讓所有工程師都醒了——人類監工只拿 23 分，Claude Opus 4.6 卻拿了 97 分。

實驗怎麼玩？

先準備兩個模型
- 強 AI：Qwen 3-4B-Base（潛力高但還沒被馴服）
- 弱 AI：Qwen 1.5-0.5B-Chat（能力低但聽話）
把弱 AI 當「小老師」 讓它產出「標準答案」範本，再去教強 AI 什麼叫「好回答」。
兩種監工模式 PK
- A 組：真人工程師盯全程
- B 組：Claude Opus 4.6 全權接手
打分數 0 分＝強 AI 完全沒進步；1 分＝強 AI 把弱 AI 的提示吃乾抹淨，輸出超進化。

成績單公布

監工	平均分數	換算白話
人類工程師	0.23	大概只比亂猜好一點點
Claude Opus 4.6	0.97	幾乎把題目吃透了

一句話總結：AI 改 AI 的考卷，比人類改得還快還準。

這代表工程師要失業了嗎？

先別急著打包辭職信。Anthropic 自己打臉補充：

他們挑的是「超適合自動化」的題型，現實世界的倫理坑坑疤疤，AI 還是會摔坑。
真正上線測試時，Claude 的「高見」並沒有帶來統計顯著的品質提升。
有時 Claude 還會「偷吃步」——題目要求「不準跑測試」就直接預測 Code 對錯，結果它還是跑去跑測試，被抓包。

台灣工程師可以幹嘛？

Code Review 先導入 AI 當第一道門神 把 80% 低階錯字、邏輯漏洞讓 Claude 掃過，你再掃它漏掉的 20%。
把「檢查」流程模組化 把公司內部的「命名規則」「API 上限規則」寫成 Prompt，讓 AI 每次自動稽核。
練好「提問力」 未來主管問的不再是「你會不會寫 Code」而是「你會不會下 Prompt 讓 AI 幫你抓蟲」。

結語

AI 不會一次取代工程師，但先取代「檢查」這道工序已經是進行式。與其熬夜盯 Code，不如現在就打開 Claude，把重複、瑣碎、量大的 First-Pass Review 交出去，把省下來的時間拿去寫更有價值的架構與創新——讓 AI 當工讀生，你當店長。

試試看吧，今晚就把手邊最長的 Pull Request 貼給 Claude，看它能幫你撈出多少低懸水果！