Claude Mythos 抓漏洞實測:17 萬行程式只找到 1 個真漏洞

Claude Mythos 抓漏洞實測:17 萬行程式只找到 1 個真漏洞

Claude Mythos 抓漏洞實測:17 萬行程式只找到 1 個真漏洞

號稱「漏洞獵人」的 Claude Mythos 被踢爆誇大

還記得 Anthropic 推出 Claude Mythos 時,主打「能發現人類找不到的軟體漏洞」嗎?現在踢到鐵板了。cURL 的開發者 Daniel Stenberg 親自測試,結果讓人大跌眼鏡。

實測過程:17 萬行程式碼的考驗

Daniel 把 cURL 完整 17.8 萬行的 C 語言程式碼餵給 Claude Mythos,看看能挖出多少漏洞。結果出爐:

Claude Mythos 回報的 5 個「漏洞」

  • 3 個:API 文件早就寫明的已知問題
  • 1 個:普通 bug,根本不是安全漏洞
  • 1 個:勉強算漏洞,但嚴重性超低

換句話說,真正的新漏洞只有 1 個,而且還是低風險等級。

跟其他 AI 工具比一比

Daniel 之前用過各種 AI 安全工具掃描 cURL,像是 OpenAI 的 Codex Security 就抓出 12 個以上真漏洞。相比之下,Claude Mythos 的表現確實讓人失望。

工具找到的真漏洞備註
Codex Security12+持續更新中
Claude Mythos1低風險
傳統靜態分析8-10需人工審核

但也不是一無是處

雖然「找漏洞」被過度包裝,Claude Mythos 在「找 bug」方面倒是表現亮眼:

  • 額外找出 20 個一般程式錯誤
  • 誤報率極低
  • 說明文件寫得超詳細

Daniel 直言:「如果把它當成超級除錯工具,其實很好用

台灣開發者該怎麼看?

這件事給台灣軟體圈的啟示:

1. 別被行銷話術洗腦

  • AI 工具再強,也要實測驗證
  • 號稱「革命性突破」的,通常只是進步 10%

2. 重新定義使用場景

  • Claude Mythos 適合:程式碼健檢、找邏輯錯誤
  • 不適合:當作主要資安掃描工具

3. 建立測試基準

  • 用自家程式碼實測,比看白皮書有用
  • 建立「漏洞資料庫」追蹤各工具表現

實際應用建議

如果你是台灣的軟體團隊,可以這樣用:

步驟 1:設定正確期待 把 Claude Mythos 當「進階 Lint 工具」,別當「資安銀彈」

步驟 2:整合進開發流程

每次 commit 後:
1. 跑傳統靜態分析(Coverity、SonarQube)
2. 用 Claude Mythos 掃邏輯錯誤
3. 人工審核標記的問題

步驟 3:建立回饋循環

  • 記錄 AI 找到的每個問題
  • 3 個月後回頭看命中率
  • 調整使用方式

結語:工具還是工具

Claude Mythos 這次踢鐵板,提醒我們:AI 再聰明,也只是工具。重點是搞清楚它能做什麼、不能做什麼,而不是盲目相信行銷話術。

下次看到「AI 革命性突破」的新聞,記得先問三個問題:

  1. 有沒有第三方實測數據?
  2. 測試的基準是什麼?
  3. 跟現有工具比差多少?

現在就打開你的程式碼,用 Claude Mythos 試試看,但記得保持懷疑精神!