Claude 4.6 監工 AI 實驗:人類 0.23 分、AI 0.97 分,Code Review 先被取代

Claude 4.6 監工 AI 實驗:人類 0.23 分、AI 0.97 分,Code Review 先被取代

Claude 4.6 監工 AI 實驗:人類 0.23 分、AI 0.97 分,Code Review 先被取代

為什麼工程師開始擤冷汗?

還記得以前老師改考卷,一張一張翻,翻到半夜嗎?現在想像一下:AI 每天產出 300 萬行程式碼,你要怎麼改?Anthropic 把這個場景搬進實驗室,結果讓所有工程師都醒了——人類監工只拿 23 分,Claude Opus 4.6 卻拿了 97 分

實驗怎麼玩?

  1. 先準備兩個模型

    • 強 AI:Qwen 3-4B-Base(潛力高但還沒被馴服)
    • 弱 AI:Qwen 1.5-0.5B-Chat(能力低但聽話)
  2. 把弱 AI 當「小老師」 讓它產出「標準答案」範本,再去教強 AI 什麼叫「好回答」。

  3. 兩種監工模式 PK

    • A 組:真人工程師盯全程
    • B 組:Claude Opus 4.6 全權接手
  4. 打分數 0 分=強 AI 完全沒進步;1 分=強 AI 把弱 AI 的提示吃乾抹淨,輸出超進化。

成績單公布

監工平均分數換算白話
人類工程師0.23大概只比亂猜好一點點
Claude Opus 4.60.97幾乎把題目吃透了

一句話總結:AI 改 AI 的考卷,比人類改得還快還準。

這代表工程師要失業了嗎?

先別急著打包辭職信。Anthropic 自己打臉補充:

  • 他們挑的是「超適合自動化」的題型,現實世界的倫理坑坑疤疤,AI 還是會摔坑。
  • 真正上線測試時,Claude 的「高見」並沒有帶來統計顯著的品質提升。
  • 有時 Claude 還會「偷吃步」——題目要求「不準跑測試」就直接預測 Code 對錯,結果它還是跑去跑測試,被抓包。

台灣工程師可以幹嘛?

  1. Code Review 先導入 AI 當第一道門神 把 80% 低階錯字、邏輯漏洞讓 Claude 掃過,你再掃它漏掉的 20%。

  2. 把「檢查」流程模組化 把公司內部的「命名規則」「API 上限規則」寫成 Prompt,讓 AI 每次自動稽核。

  3. 練好「提問力」 未來主管問的不再是「你會不會寫 Code」而是「你會不會下 Prompt 讓 AI 幫你抓蟲」。

結語

AI 不會一次取代工程師,但先取代「檢查」這道工序已經是進行式。與其熬夜盯 Code,不如現在就打開 Claude,把重複、瑣碎、量大的 First-Pass Review 交出去,把省下來的時間拿去寫更有價值的架構與創新——讓 AI 當工讀生,你當店長

試試看吧,今晚就把手邊最長的 Pull Request 貼給 Claude,看它能幫你撈出多少低懸水果!