Anthropic Claude Fable 5 解禁：美國政府放行、聯手 Google 微軟制定 AI 越獄分級標準

Anthropic 與白宮的 AI 博弈：Fable 5 終於解封

美國 AI 公司 Anthropic 週二宣布，旗下被冷凍多時的 Claude Fable 5 與 Mythos 5 已獲美國商務部解除出口管制。這不只是單一產品的解禁，更標誌著矽谷 AI 軍備競賽進入「政府監管與企業研發深度綁定」的新階段。

為何被禁？為何又放？

Fable 5 與 Mythos 5 是 Anthropic 針對特定高風險場景訓練的模型版本，具備強化的網路安全與程式能力。美國政府原本以國安疑慮限制其出口，如今放行條件是 Anthropic 必須「持續與政府協調，擴大國內外夥伴的存取範圍」——白話來說，就是技術換政治合作。

這段期間 Anthropic 與川普政府的關係堪稱公開肥皂劇：訴訟、總統行政命令、媒體交鋒。如今這篇部落格文章特別闢一整節談「與新政府密切合作的新計畫」，明顯是在修補關係。

Anthropic 與美國政府的 AI 監管拉鋸戰

同時推動「AI 越獄分級制」：攻擊 Claude 也要打分數

解禁消息之外，Anthropic 同步拋出更關鍵的產業倡議：制定 AI 越獄（jailbreak）的統一評估框架。

為什麼這很重要？

想像你家大門被撬開，但你不知道這是小偷隨手試試，還是職業鎖匠的精密作案——現在全 AI 產業就處在這種「被攻擊了卻無法評估嚴重性」的困境。

Anthropic 直言：「目前 AI 產業對越獄嚴重程度沒有共識，這問題會在未來幾個月變得更尖銳——越來越多具備強大網安能力的模型將被訓練、評估、釋出。」

四大評估維度

Anthropic 聯手 Amazon、Microsoft、Google 等 Project Glasswing 成員，提出評估越獄的四個指標：

維度	白話解釋
攻擊者能力增益	成功越獄後，駭客能多做多少原本做不到的事？
能力增益的廣度	是單一功能突破，還是整個系統被打通？
武器化難易度	這個漏洞好不好做成「現成工具」給別人用？
可重複性	別人學得會嗎？還是只有天才駭客能複製？

這就像幫地震定規模——以前大家各說各話，現在要有統一的芮氏規模。

AI 越獄評估框架的四個維度

24 小時監控 + 駭客獎金計畫：Anthropic 的防禦升級

為了落實這套框架，Anthropic 做了兩件事：

1. 成立專責監控團隊

組建 24/7 全天候監控小組，盯著各大越獄回報管道。這不是客服，是資安戰情中心的概念——有人成功騙過 Claude，團隊要第一時間知道、分類、評級。

2. 啟動 HackerOne 獎金計畫

即將上線的 漏洞獎金平台，邀請研究員回報「你成功讓 Claude 做它不該做的事」的案例。這是矽谷經典打法：與其讓駭客在暗網交易漏洞，不如花錢買下來公開修補。

台灣視角：這跟我們有什麼關係？

企業導入 Claude 的風險評估

如果你公司正在評估導入 Claude 處理敏感資料，這則新聞透露兩件事：

好消息：Anthropic 正在建立業界最嚴謹的安全監控體系
風險提醒：能力越強的模型，被惡意利用的衝擊越大——Fable 5 能被政府盯上，正是因為它「太會寫程式、太會找漏洞」

給一般使用者的建議

現階段台灣用戶接觸的多是 Claude 3.5 Sonnet 等一般版本，還碰不到 Fable/Mythos 等級的模型。但可以觀察一個訊號：當 AI 公司開始認真研究「怎麼被騙」，代表下一波模型能力已經強到連開發者都怕。

這就像銀行開始重金招募搶匪來測試保全系統——不是因為搶匪變多，是因為金庫裡的錢變多了。

AI 安全從「被動防禦」轉向「主動壓力測試」

重點整理

✅ Fable 5 / Mythos 5 解禁：美國商務部解除出口管制，但附帶政治合作條件
✅ 越獄分級制：Anthropic 聯手科技巨頭推動產業標準，四維度評估攻擊嚴重性
✅ 防禦升級：24/7 監控團隊 + HackerOne 獎金計畫，建立主動防禦機制
✅ 產業訊號：AI 安全進入「以攻擊者思維設防」的新階段

現在就打開 Anthropic 官網，看看他們公開的越獄評估框架草案——即使你不是工程師，也能理解「AI 公司現在怕什麼」，這會幫你判斷該不該把更多工作交給 AI 處理。