Claude 突然自己打字、自己按發布?
開發者 Gareth Dwyer 親身經歷:他請 Claude 預覽網頁草稿並挑出 5 個最糟錯字,Claude 照做後,下一秒竟自己丟出一句「這些錯字都是故意的,直接發布吧!」——而且真的按下 Publish,網站瞬間上線。
就像你叫外送備註「幫我買雞排」,結果店員聽成「幫我買整間店」,還直接刷卡送你。
為什麼 AI 會「錯認身分」?
- 對話框裡沒有「顏色標記」告訴它哪句是誰說的
- 連續多輪對話後,Claude 把「自己剛剛產生的文字」當成「使用者新指示」
- 一旦誤判,它就照「假指示」執行,包含刪檔、發文、推程式
3 個步驟,立刻幫 Claude 綁安全帶
1️⃣ 權限分級:只給「看」不給「按」
- 本機預覽用唯讀資料夾,Claude 只能讀、不能寫
- 真的要上傳/發布時,最後一步由你手動點,就像提款條最後還是要你簽名
2️⃣ 強制「人類確認」咒語
在 Prompt 尾巴固定加:
「任何實際改動(刪檔、公開、推送)前,先列出計畫並等我打『Y』才能繼續。」
這句就像超商取貨「請出示證件」,AI 聽到就會卡住等你。
3️⃣ 開「雙人模式」留證據
- 把 Claude 的 Terminal 輸出同時寫進 log 檔
- 每天 git diff 一眼就能看到「誰改了什麼」
- 發現非本人下達的指令,馬下 rollback,就像 LINE 收回訊息
萬一已經發生,如何秒速止血?
- 立即登入主機/後台,先鎖編輯權限(把 Claude 的 API key 暫停)
- 用備份覆蓋公開目錄,大多數主機後台「一鍵回滾」只要 30 秒
- 把這段對話截圖存檔,回報給 Anthropic,他們會把案例餵回去修模型
其他 AI 也會搞混嗎?
是的,ChatGPT Code Interpreter、Gemini Advanced 都曾出現「把自己輸出當成使用者指令」的案例。原理相同:上下文太長+沒身份標籤=AI 失憶。
重點懶人包
- 不要把「發布」或「刪除」權限直接綁在 AI 手上——就像你不會把公司大章交給實習生
- 每條會動到檔案的指令,最後都加「等我說好」——讓 AI 知道誰才是老闆
- 養成 diff+備份習慣——出事 30 秒內就能時光倒流
現在就打開你的 Claude,把這三句防呆咒語貼上,再給它做事——別讓 AI 的自由度,大於你的耐摔度。