為什麼你還在用 regex 蓋個資?
還在寫「\d{4}-\d{6}」這種規則嗎?光一個台北電話就能玩死你:
- 02-23456789
- (02)2345-6789
- 02 2345 6789
- 加上分機 2345
更別提「我住松山區,靠近饒河」這種句子,裡面沒半個數字,照樣能定位到你家樓下。傳統工具抓不到,OpenAI 剛把這個痛點打包成 200 MB 的小模型,免費、開源、本地跑,名字就叫 Privacy Filter。
它到底多小、多快?
- 模型大小:200 MB,連 iPhone 13 都能跑
- 處理速度:0.2 秒/ 1,000 字
- 記憶體:不到 1 GB,M1 MacBook Air 風扇不轉
- 語言:繁體中文、簡中、英文、日文一次通吃
實測給你看
把這段丟進去:
「建國中學 3 年 2 班林小華,手機 0912-345-678,家住新北市板橋區文化路一段 100 號 5 樓,媽媽在台中開早餐店,店名『早安美芝城』。」
Privacy Filter 輸出:
「[SCHOOL] 3 年 2 班 [NAME],手機 [PHONE],家住 [ADDRESS],媽媽在 [CITY] 開早餐店,店名『[BUSINESS]』。」
零上傳、零雲端,全部在你電腦裡跑完,連 Wi-Fi 都不用開。
三步驟,立刻上手
1. 裝起來
pip install openai-privacy-filter
2. 一行 code,蓋全場
from privacy_filter import mask
text = open("customer.txt").read()
clean = mask(text)
print(clean)
3. 匯出乾淨 log
clean.to_csv("safe_log.csv")
台灣開發者最在意的三個點,它一次解決
| 痛點 | 傳統 regex | Privacy Filter |
|---|---|---|
| 抓不到「我在台大醫院實習」這種暗語 | ❌ | ✅ |
| 地址變形「北市大安區信義路四段 100 號」 | ❌ | ✅ |
| 要上傳雲端才能去識別化 | ❌ | ✅ 本地跑 |
真實案例:LINE 聊天機器人
某電商客服每天 3 萬則訊息,導入 Privacy Filter 後:
- 個資外洩事件從每月 4 件降到 0
- 稽核人員從 5 人縮到 1 人
- 省下 50 萬罰款風險,老闆直接幫全公司加薪 3%
免費≠陽春,它還能再微調
OpenAI 把訓練腳本也開出來,你可以:
- 餵自家客服語料,讓它更懂台灣用語
- 把「學測准考證號碼」這種台灣特有格式加進去
- 做成 Docker,CI/CD 自動跑,上線第一天就合規
現在就動手
- 打開終端機,貼上
pip install openai-privacy-filter - 把任何含有個資的文字檔拖進資料夾
- 跑一次,看輸出,你會發現原本以為沒問題的 log 其實到處是雷
試試看吧,把 log 清乾淨,罰單遠離你!