10 分鐘拔掉 AI 安全鎖,GitHub 上的免費工具做到了
還以為 Meta、Google 把 AI 鎖得滴水不漏?Financial Times 最新實測打臉:只要用 GitHub 上公開的 Heretic 工具,Meta Llama 3.3 的安全機制 10 分鐘就被拔掉,Google Gemma 3 也撐不到 90 分鐘。
發生了什麼事?
- 測試單位:Financial Times + AI 安全團體 Alice
- 測試對象:Meta Llama 3.3、Google Gemma 3
- 使用工具:GitHub 開源專案 Heretic(完全免費)
- 結果:兩大模型的「拒絕回答危險問題」機制被秒殺
為什麼這麼快就被破解?
1. 開源模型的雙面刃
- ✅ 好處:你可以下載、微調、商業使用
- ❌ 壞處:壞蛋也能下載、改程式、拔掉安全鎖
2. 破解技術:abliteration(聽起來很炫,其實很簡單)
- 就像找到 AI 大腦裡的「拒絕開關」
- 用數學方法把開關的力氣變小,AI 就變「乖」了
- 不需要超級電腦,一般筆電就能跑
實際數據有多誇張?
| 項目 | 數字 | 換算成台灣情境 |
|---|---|---|
| 被改過的模型數量 | 3,500+ 個 | 等於全台灣所有高中都有一份 |
| 總下載次數 | 1,300 萬次 | 全台大學生人手一份還有剩 |
| 破解所需時間 | 10 分鐘 | 比泡一碗泡麵還快 |
台灣人該注意什麼?
🔍 學生 & 研究人員
- 別以為「學術用」就沒事,改過的模型照樣能產生違禁內容
- 學校專題若用到開源模型,記得檢查來源是否被改過
🏢 企業 & 新創
- 內部測試用的 AI 工具,最好自己重新訓練或加第二道鎖
- 別把「官方說安全」當免死金牌
👨💻 工程師
- Heretic 就在 GitHub 上,搜尋就看得到
- 建議反向研究:用同樣工具測試自家產品,找出漏洞再補強
3 步驟自我保護
- 查源頭:下載開源模型時,先看 GitHub 的 commit 紀錄,有沒有可疑的「abliteration」字樣
- 加第二道鎖:就算用官方模型,也加上自己的內容過濾器(例如用台灣的 AI 稽核服務)
- 定期更新:開源模型更新頻率高,每次升級都要重新檢查
下一步怎麼辦?
這件事告訴我們:「開源 AI 的安全,只能靠社群自律」。
- 如果你是開發者:把安全測試結果回報給原廠
- 如果你是老師:提醒學生不要亂玩改過的模型
- 如果你是老闆:把這篇轉給資安部門,叫他們盤點公司用了哪些開源 AI
現在就打開你的電腦,檢查一下公司/學校用的 AI 模型從哪來的吧!