就像段考題本外洩還改錯答案
OpenAI 在 2026 年 4 月公布一份自家報告,直接打臉業界最常用的「程式能力排行榜」SWE-bench Verified:「我們不再用它評估最新模型,因為題目跟改考卷都出包。」一句話翻譯——AI 寫程式比賽,題目與評分都有瑕疵,高分不等於高手。
為什麼 SWE-bench 會變「垃圾指標」?
SWE-bench 把 GitHub 上真實的 Python bug 與修復檔打包成考題,號稱「貼近真實工程」。但 OpenAI 重新檢查 2025 年 8 月到 2026 年 2 月「停滯期」的 1,600 多份錯題,發現兩大致命傷:
- 評分腳本自己錯:27.6% 的「錯題」裡,高達 59.4% 其實是 AI 寫對,卻被測試腳本打槍。就像數學老師堅持 2+2=4 是錯的一樣荒謬。
- 考古題外洩:題目與解答都躺在公開 GitHub,早被各大模型「背起來」。分數提高不是變聰明,只是背書背得比別人熟。
台灣工程師該怎麼辦?
如果你正在:
- 挑選 Coding AI 輔助工具
- 面試要求「現場刷題」
- 評估內部 Auto-Dev 專案
千萬別只看「SWE-bench 幾分」。OpenAI 建議改用「內部私有題庫+真人 Code Review」雙軌驗證,才能反映真實戰力。
三步驟自建「不灌水」評測
- 把公司舊 Bug 藏起來:挑 3 個月前的內部 Issues,拆敏感資訊後做成小考卷,不上公開 Git。
- 讓 AI 寫 Patch:餵 ChatGPT / Claude 題目,要求附單元測試與說明。
- 真人雙盲 Review:找兩位資深後端各花 30 分鐘審 Code,只要功能對、可讀性高就過關,避免腳本錯殺。
根據 OpenAI 內部數據,改用私有題庫後,GPT-5.2 正確率從「公開 85%」掉到「私有 62%」,差距 23 個百分點,直接打回原形。
企業導入 AI 程式助手前,先問 3 個問題
- 我們的驗收資料有沒有外洩到網路?
- 評分標準是腳本還是真人?
- 模型表現停滯,是能力極限還是數據污染?
把這 3 題寫進採購評估表,就能避開「高分低能」陷阱。
結語:排行榜看看就好,自己考過最準
OpenAI 帶頭承認公開 bench 失效,等同告全世界「別再比公關數字」。台灣團隊若想真正提升開發效率,與其追分數,不如花 1 天整理自家考古題,讓 AI 在真實戰場上見真章。
試試看吧:今晚就把公司上個月的臭蟲清單匯出,用 ChatGPT 跑一次私有測驗,你會發現「排行榜神話」跟「工程實力」原來差這麼多!