OpenAI 認證:SWE-bench 程式排行榜 59% 正解被錯殺,別再迷信 GPT 分數

OpenAI 認證:SWE-bench 程式排行榜 59% 正解被錯殺,別再迷信 GPT 分數

OpenAI 認證:SWE-bench 程式排行榜 59% 正解被錯殺,別再迷信 GPT 分數

就像段考題本外洩還改錯答案

OpenAI 在 2026 年 4 月公布一份自家報告,直接打臉業界最常用的「程式能力排行榜」SWE-bench Verified:「我們不再用它評估最新模型,因為題目跟改考卷都出包。」一句話翻譯——AI 寫程式比賽,題目與評分都有瑕疵,高分不等於高手。

為什麼 SWE-bench 會變「垃圾指標」?

SWE-bench 把 GitHub 上真實的 Python bug 與修復檔打包成考題,號稱「貼近真實工程」。但 OpenAI 重新檢查 2025 年 8 月到 2026 年 2 月「停滯期」的 1,600 多份錯題,發現兩大致命傷:

  1. 評分腳本自己錯:27.6% 的「錯題」裡,高達 59.4% 其實是 AI 寫對,卻被測試腳本打槍。就像數學老師堅持 2+2=4 是錯的一樣荒謬。
  2. 考古題外洩:題目與解答都躺在公開 GitHub,早被各大模型「背起來」。分數提高不是變聰明,只是背書背得比別人熟。

台灣工程師該怎麼辦?

如果你正在:

  • 挑選 Coding AI 輔助工具
  • 面試要求「現場刷題」
  • 評估內部 Auto-Dev 專案

千萬別只看「SWE-bench 幾分」。OpenAI 建議改用「內部私有題庫+真人 Code Review」雙軌驗證,才能反映真實戰力。

三步驟自建「不灌水」評測

  1. 把公司舊 Bug 藏起來:挑 3 個月前的內部 Issues,拆敏感資訊後做成小考卷,不上公開 Git。
  2. 讓 AI 寫 Patch:餵 ChatGPT / Claude 題目,要求附單元測試與說明。
  3. 真人雙盲 Review:找兩位資深後端各花 30 分鐘審 Code,只要功能對、可讀性高就過關,避免腳本錯殺。

根據 OpenAI 內部數據,改用私有題庫後,GPT-5.2 正確率從「公開 85%」掉到「私有 62%」,差距 23 個百分點,直接打回原形。

企業導入 AI 程式助手前,先問 3 個問題

  • 我們的驗收資料有沒有外洩到網路?
  • 評分標準是腳本還是真人?
  • 模型表現停滯,是能力極限還是數據污染?

把這 3 題寫進採購評估表,就能避開「高分低能」陷阱。

結語:排行榜看看就好,自己考過最準

OpenAI 帶頭承認公開 bench 失效,等同告全世界「別再比公關數字」。台灣團隊若想真正提升開發效率,與其追分數,不如花 1 天整理自家考古題,讓 AI 在真實戰場上見真章。

試試看吧:今晚就把公司上個月的臭蟲清單匯出,用 ChatGPT 跑一次私有測驗,你會發現「排行榜神話」跟「工程實力」原來差這麼多!