Anthropic Claude Fable 5 解禁:美國政府放行、聯手 Google 微軟制定 AI 越獄分級標準

Anthropic Claude Fable 5 解禁:美國政府放行、聯手 Google 微軟制定 AI 越獄分級標準

Anthropic Claude Fable 5 解禁:美國政府放行、聯手 Google 微軟制定 AI 越獄分級標準

Anthropic 與白宮的 AI 博弈:Fable 5 終於解封

美國 AI 公司 Anthropic 週二宣布,旗下被冷凍多時的 Claude Fable 5Mythos 5 已獲美國商務部解除出口管制。這不只是單一產品的解禁,更標誌著矽谷 AI 軍備競賽進入「政府監管與企業研發深度綁定」的新階段。

為何被禁?為何又放?

Fable 5 與 Mythos 5 是 Anthropic 針對特定高風險場景訓練的模型版本,具備強化的網路安全與程式能力。美國政府原本以國安疑慮限制其出口,如今放行條件是 Anthropic 必須「持續與政府協調,擴大國內外夥伴的存取範圍」——白話來說,就是技術換政治合作。

這段期間 Anthropic 與川普政府的關係堪稱公開肥皂劇:訴訟、總統行政命令、媒體交鋒。如今這篇部落格文章特別闢一整節談「與新政府密切合作的新計畫」,明顯是在修補關係。

Anthropic 與美國政府的 AI 監管拉鋸戰


同時推動「AI 越獄分級制」:攻擊 Claude 也要打分數

解禁消息之外,Anthropic 同步拋出更關鍵的產業倡議:制定 AI 越獄(jailbreak)的統一評估框架

為什麼這很重要?

想像你家大門被撬開,但你不知道這是小偷隨手試試,還是職業鎖匠的精密作案——現在全 AI 產業就處在這種「被攻擊了卻無法評估嚴重性」的困境。

Anthropic 直言:「目前 AI 產業對越獄嚴重程度沒有共識,這問題會在未來幾個月變得更尖銳——越來越多具備強大網安能力的模型將被訓練、評估、釋出。」

四大評估維度

Anthropic 聯手 Amazon、Microsoft、Google 等 Project Glasswing 成員,提出評估越獄的四個指標:

維度白話解釋
攻擊者能力增益成功越獄後,駭客能多做多少原本做不到的事?
能力增益的廣度是單一功能突破,還是整個系統被打通?
武器化難易度這個漏洞好不好做成「現成工具」給別人用?
可重複性別人學得會嗎?還是只有天才駭客能複製?

這就像幫地震定規模——以前大家各說各話,現在要有統一的芮氏規模。

AI 越獄評估框架的四個維度


24 小時監控 + 駭客獎金計畫:Anthropic 的防禦升級

為了落實這套框架,Anthropic 做了兩件事:

1. 成立專責監控團隊

組建 24/7 全天候監控小組,盯著各大越獄回報管道。這不是客服,是資安戰情中心的概念——有人成功騙過 Claude,團隊要第一時間知道、分類、評級。

2. 啟動 HackerOne 獎金計畫

即將上線的 漏洞獎金平台,邀請研究員回報「你成功讓 Claude 做它不該做的事」的案例。這是矽谷經典打法:與其讓駭客在暗網交易漏洞,不如花錢買下來公開修補。


台灣視角:這跟我們有什麼關係?

企業導入 Claude 的風險評估

如果你公司正在評估導入 Claude 處理敏感資料,這則新聞透露兩件事:

  • 好消息:Anthropic 正在建立業界最嚴謹的安全監控體系
  • 風險提醒:能力越強的模型,被惡意利用的衝擊越大——Fable 5 能被政府盯上,正是因為它「太會寫程式、太會找漏洞」

給一般使用者的建議

現階段台灣用戶接觸的多是 Claude 3.5 Sonnet 等一般版本,還碰不到 Fable/Mythos 等級的模型。但可以觀察一個訊號:當 AI 公司開始認真研究「怎麼被騙」,代表下一波模型能力已經強到連開發者都怕

這就像銀行開始重金招募搶匪來測試保全系統——不是因為搶匪變多,是因為金庫裡的錢變多了。

AI 安全從「被動防禦」轉向「主動壓力測試」


重點整理

  • Fable 5 / Mythos 5 解禁:美國商務部解除出口管制,但附帶政治合作條件
  • 越獄分級制:Anthropic 聯手科技巨頭推動產業標準,四維度評估攻擊嚴重性
  • 防禦升級:24/7 監控團隊 + HackerOne 獎金計畫,建立主動防禦機制
  • 產業訊號:AI 安全進入「以攻擊者思維設防」的新階段

現在就打開 Anthropic 官網,看看他們公開的越獄評估框架草案——即使你不是工程師,也能理解「AI 公司現在怕什麼」,這會幫你判斷該不該把更多工作交給 AI 處理。