OpenAI 認證：SWE-bench 程式排行榜 59% 正解被錯殺，別再迷信 GPT 分數

就像段考題本外洩還改錯答案

OpenAI 在 2026 年 4 月公布一份自家報告，直接打臉業界最常用的「程式能力排行榜」SWE-bench Verified：「我們不再用它評估最新模型，因為題目跟改考卷都出包。」一句話翻譯——AI 寫程式比賽，題目與評分都有瑕疵，高分不等於高手。

SWE-bench 把 GitHub 上真實的 Python bug 與修復檔打包成考題，號稱「貼近真實工程」。但 OpenAI 重新檢查 2025 年 8 月到 2026 年 2 月「停滯期」的 1,600 多份錯題，發現兩大致命傷：

如果你正在：

千萬別只看「SWE-bench 幾分」。OpenAI 建議改用「內部私有題庫＋真人 Code Review」雙軌驗證，才能反映真實戰力。

根據 OpenAI 內部數據，改用私有題庫後，GPT-5.2 正確率從「公開 85%」掉到「私有 62%」，差距 23 個百分點，直接打回原形。

把這 3 題寫進採購評估表，就能避開「高分低能」陷阱。

OpenAI 帶頭承認公開 bench 失效，等同告全世界「別再比公關數字」。台灣團隊若想真正提升開發效率，與其追分數，不如花 1 天整理自家考古題，讓 AI 在真實戰場上見真章。

試試看吧：今晚就把公司上個月的臭蟲清單匯出，用 ChatGPT 跑一次私有測驗，你會發現「排行榜神話」跟「工程實力」原來差這麼多！