Gemini API 多模態檔案搜尋:3 步把 300 份 PDF 變 500ms 回應

Gemini API 多模態檔案搜尋:3 步把 300 份 PDF 變 500ms 回應

Gemini API 多模態檔案搜尋:3 步把 300 份 PDF 變 500ms 回應

為什麼你該關心這次更新?

Google 悄悄升級 Gemini API 的 File Search,現在不只是「文字比對」,而是直接讀圖、讀表、讀簡報,再把正確檔案拉回來。對台灣開發者來說,等於免費多一位不會累的實習生,24 小時蹲在資料庫幫你找圖表。

把「搜尋」徴底改寫的三個亮點

1. 多模態理解

  • 上傳的檔案裡有圖表、手寫、照片,Gemini 都能「看懂」
  • 就像你在 Google 相簿打「嬰兒 泳池」找出去年夏天照片,現在換成公司內部文件

2. 自訂中繼資料(Metadata)

  • 每個檔案可貼「部門:法務」「專案:台積電 5 奈米」「狀態:最終版」這種標籤
  • 搜尋時直接下「找法務部 最終版 合約」,秒縮範圍

3. 可驗證 RAG(Retrieval-Augmented Generation)

  • Gemini 不只給你檔名,還回傳「第幾頁、哪一段」讓你點進去確認
  • 會計報帳、IPO 查核都能留下軌跡,稽核人員眉角少 80%

實際跑一遍:300 份 PDF → 500 毫秒

步驟 A:批次上傳 把 300 份財報 PDF 丟進 Cloud Storage,自動帶入「年度:112」「季別:Q4」 兩組標籤,全程 3 分鐘設定完。

步驟 B:下指令 「找出 112 年 Q4 毛利率跌破 30% 的那一頁圖表」

步驟 C:拿回結果 Gemini 回傳:

  • 檔名:112_Q4_綜合損益.pdf
  • 頁碼:簡報第 18 頁
  • 截圖:已框出毛利率折線圖
  • 文字:毛利率 28.4% 整個過程 468 毫秒,比你在公司 NAS 搜尋還快。

台灣場景怎麼用?

📊 會計師事務所 – 報稅季省 600 小時

把客戶發票、折讓、合約全掃成 PDF,貼「統稅:12345678」「類別:進項」。報稅系統問「3 月進項發票有幾張?」,Gemini 直接給清單+金額,人工對帳從 3 天縮到 30 分鐘。

🏭 製造業 – 產線 SOP 搜尋

現場 iPad 拍照上傳「機台:NX-500」「異常:震動」,工程師輸入「NX-500 震動 SOP」,AI 拉回去年類似案例與排除步驟,停線時間降 15%。

🏛️ 學校 – 學測題庫秒撈

把 20 年學測自然科掃描檔上傳,標「章節:光學」「難度:中高」。老師打「光學 歷屆計算題」,立刻拿到圖片+解答,出卷效率 x5。

錢與額度

  • 免費層:每天 60 次請求,單檔最大 10 MB
  • 付費層:超過後 $0.75 美元/1,000 次(約 22 台幣),比請工讀生便宜 100 倍

5 分鐘快速試玩

  1. 打開 Google AI Studio → 左側「File Search」
  2. 上傳一份自家簡報,右側加標籤「test:demo」
  3. 在下方 Prompt 打「找到有『營收』兩個字的頁面」
  4. 看 Gemini 回傳的頁碼與截圖是否正確
  5. 正確的話,點「Get code」直接複製 Python,貼進 Colab 就能串進公司系統

結語:現在就把「找檡案」這件雜事交給 AI

與其在 LINE 群組狂敲「誰有 112 年 Q4 的毛利率圖?」,不如讓 Gemini API 幫你顧好資料庫。試試看吧,把第一個資料夾丟上去,你會發現——原來搜尋可以比思考更快