號稱「漏洞獵人」的 Claude Mythos 被踢爆誇大
還記得 Anthropic 推出 Claude Mythos 時,主打「能發現人類找不到的軟體漏洞」嗎?現在踢到鐵板了。cURL 的開發者 Daniel Stenberg 親自測試,結果讓人大跌眼鏡。
實測過程:17 萬行程式碼的考驗
Daniel 把 cURL 完整 17.8 萬行的 C 語言程式碼餵給 Claude Mythos,看看能挖出多少漏洞。結果出爐:
Claude Mythos 回報的 5 個「漏洞」
- 3 個:API 文件早就寫明的已知問題
- 1 個:普通 bug,根本不是安全漏洞
- 1 個:勉強算漏洞,但嚴重性超低
換句話說,真正的新漏洞只有 1 個,而且還是低風險等級。
跟其他 AI 工具比一比
Daniel 之前用過各種 AI 安全工具掃描 cURL,像是 OpenAI 的 Codex Security 就抓出 12 個以上真漏洞。相比之下,Claude Mythos 的表現確實讓人失望。
| 工具 | 找到的真漏洞 | 備註 |
|---|---|---|
| Codex Security | 12+ | 持續更新中 |
| Claude Mythos | 1 | 低風險 |
| 傳統靜態分析 | 8-10 | 需人工審核 |
但也不是一無是處
雖然「找漏洞」被過度包裝,Claude Mythos 在「找 bug」方面倒是表現亮眼:
- 額外找出 20 個一般程式錯誤
- 誤報率極低
- 說明文件寫得超詳細
Daniel 直言:「如果把它當成超級除錯工具,其實很好用」
台灣開發者該怎麼看?
這件事給台灣軟體圈的啟示:
1. 別被行銷話術洗腦
- AI 工具再強,也要實測驗證
- 號稱「革命性突破」的,通常只是進步 10%
2. 重新定義使用場景
- Claude Mythos 適合:程式碼健檢、找邏輯錯誤
- 不適合:當作主要資安掃描工具
3. 建立測試基準
- 用自家程式碼實測,比看白皮書有用
- 建立「漏洞資料庫」追蹤各工具表現
實際應用建議
如果你是台灣的軟體團隊,可以這樣用:
步驟 1:設定正確期待 把 Claude Mythos 當「進階 Lint 工具」,別當「資安銀彈」
步驟 2:整合進開發流程
每次 commit 後:
1. 跑傳統靜態分析(Coverity、SonarQube)
2. 用 Claude Mythos 掃邏輯錯誤
3. 人工審核標記的問題
步驟 3:建立回饋循環
- 記錄 AI 找到的每個問題
- 3 個月後回頭看命中率
- 調整使用方式
結語:工具還是工具
Claude Mythos 這次踢鐵板,提醒我們:AI 再聰明,也只是工具。重點是搞清楚它能做什麼、不能做什麼,而不是盲目相信行銷話術。
下次看到「AI 革命性突破」的新聞,記得先問三個問題:
- 有沒有第三方實測數據?
- 測試的基準是什麼?
- 跟現有工具比差多少?
現在就打開你的程式碼,用 Claude Mythos 試試看,但記得保持懷疑精神!