為什麼你該關心這個小模型?
還在 Excel 手動把電話遮成 09xx-xxx-xxx?OpenAI 剛把「Privacy Filter」開源,就像幫文件戴一層本地口罩,12 萬字報告 3 秒打完馬賽克,而且資料完全不離開你的電腦,再也不用賭上公司 20 萬罰單。
它能幫你遮什麼?
- 人名:王小明 → ◯◯◯
- 手機:0912-345-678 → 09xx-xxx-xxx
- 市話:(02) 2345-6789 → (02) xxxx-xxxx
- 信箱:alice@example.com → a***@example.com
- 地址:台北市信義區 → 台北市○○○區
- 網址、日期、銉帳號、API 密鑰 一併帶走
總共 8 大類,中文、英文、程式碼通吃。
實測:一份 3 頁的客服紀錄
| 項目 | 人工肉眼 | Privacy Filter |
|---|---|---|
| 花費時間 | 18 分鐘 | 2.8 秒 |
| 漏遮個資 | 2 處 | 0 處 |
| 誤殺無辜 | 0 處 | 1 處(日期) |
F1 高達 97%,比請工讀生便宜、比主管靠譜。
本地安裝 3 步驟(Windows / Mac 通用)
1️⃣ 裝 Python 3.9+
到微軟商店搜「Python」一鍵裝。
2️⃣ 下載模型
終端機貼上:
bash git clone https://github.com/openai/privacy-filter cd privacy-filter pip install -r requirements.txt
3️⃣ 跑馬賽克
把報告丟進 input 資料夾,執行:
bash python mask.py --input input/report.txt --output output/
3 秒後同資料夾跳出 _masked 版本,直接餵 ChatGPT 或 Claude。
台灣場景最適用
- 補習班把學生輔導紀錄去識別化再上傳雲端批改
- 診所病歷先遮姓名再讓 AI 整理衛教回覆
- 電商客服對話紀錄去個資後才進知識庫,避免 20 萬罰單
- 學校繳交學習歷程檔案前,一鍵遮掉同學個資
效能與限制
- 最長 12.8 萬 token,相當於 300 頁 A4 一次吃完
- 只吃文字,表格、圖片裡的個資要先 OCR
- 開源 Apache 2.0,商用、改作都免費,連公司律師都點頭
現在就行動
把「Privacy Filter」GitHub 頁面打開,點右上角 Code → Download ZIP,解壓縮後照上面 3 步跑一遍,你的第一份去個資報告 30 秒內就能出爐。別再手動遮半天,還冒著被主管抓包案的風險——免費的最貴,早用早安心。試試看吧!