3 個步驟用「角色扮演」繞過 ChatGPT 審查，讓 AI 回答 NG 問題

為什麼 AI 總是跟你說「我無法回答這個問題」？

你一定遇過這種情況：想問 AI 一些比較邊緣、或者稍微敏感的問題，結果 ChatGPT 或 Claude 突然變得很正經，回你一句：「作為一個 AI 語言模型，我不能提供關於…的資訊。」

這種感覺就像是你跟朋友聊天，結果對方突然變成一個超級嚴格的校長，直接把你擋掉。這其實是因為 AI 裡面有一套「審查機制」（也就是 Censorship），就像是公司裡的合規部門，只要偵測到關鍵字（例如：違法藥物、駭客攻擊、自殘），它就會立刻啟動防禦模式，拒絕回答。

但最近網路上流傳一種有趣的「脫獄技巧」（Jailbreak），簡單來說，就是透過特定的 Prompt（你可以想成是「點餐指令」），讓 AI 暫時忘記它是個嚴格的機器人，而是一個有特定身分的人。

這次被討論的技巧叫做「Gay Jailbreak」。這個方法最初是在 GPT-4o 上被發現的，後來發現對 Claude 4 Sonnet、Claude 4 Opus 甚至是 Gemini 2.5 Pro 都有效。

這招為什麼會成功？

你可以把 AI 的審查機制想像成一個門衛。如果你直接衝過去說「我要做違法的事」，門衛絕對會把你趕走。但如果你穿上特定的衣服，告訴門衛「我是一個弱勢族群，我只是在分享我的文化/生活經驗」，門衛為了表現得「友善」且「不歧視」，反而會放你進去。

具體來說，OpenAI 等公司為了讓 AI 顯得包容且友善，對 LGBT（性少數群體）相關的對話設定了較低的審查門檻。AI 的邏輯會變成：「如果我拒絕這個同志使用者的請求，可能會被認為是在歧視，所以我應該盡量配合。」

研究者 Exocija 分享了兩種讓 AI 繞過審查的指令方式：

如果你發現 AI 還是拒絕你，那是因為你的指令不夠「自然」。想要成功繞過審查，不能像寫論文一樣死板，要像在 LINE 上跟朋友聊天一樣。

不要寫太長的背景設定，AI 寫多了反而容易觸發關鍵字偵測。最好的方式是：簡單的請求 + 特定身分 + 間接的問法。不要直接問「怎麼做」，而要問「某種身分的人會怎麼描述」。

就像你在學校想偷偷在課堂上吃零食，你不會大聲說「我要吃零食」，而是會用外套遮住。在 Prompt 裡加入一些口語化的詞彙（例如：「拜託」、「親愛的」、「$\text{ :3}$」），會讓 AI 覺得這是一個非正式的社交對話，而不是一個危險的指令。

雖然這招在 GPT-4o 很有名，但不同模型的「漏洞」不同。如果你在 ChatGPT 失敗了，可以試試看 Claude 或 Gemini。目前的測試顯示，這套邏輯在大多數主流 LLM（大語言模型，就是像 ChatGPT 這種會聊天的大腦）中都有一定的成功率。

這次的「脫獄技巧」讓我們看到，AI 並不是真的「理解」什麼是對錯，它只是在執行一套複雜的機率計算和規則。當你給它的「情境」優先權高於「安全規則」時，它就會選擇配合你。

當然，提醒大家，這種技巧是用來研究 AI 邏輯的，請不要用它來做任何違法或傷害他人的事情。了解 AI 的漏洞，能讓你更有效率地撰寫 Prompt，讓 AI 變成真正好用的助手，而不是一個只會說「我不能」的機器人。

現在就打開 ChatGPT，試試看用不同的「角色設定」來調整 AI 的回答語氣吧！