用 Gemma 4 跑本地 AI,1 天幫你把 1 年的亂碼影片全部標記完

用 Gemma 4 跑本地 AI,1 天幫你把 1 年的亂碼影片全部標記完

用 Gemma 4 跑本地 AI,1 天幫你把 1 年的亂碼影片全部標記完

你的影片檔名是不是都叫 P1013593.MP4?

如果你常拍影片,一定懂這種痛苦:手機或相機拍完後,檔案名稱全部是 IMG_001P1013593 這種亂碼。每次想找「去年去墾丁拍的海邊影片」或「小孩第一次走路的片段」,就得像在考古一樣,一個個點開看,看完 50 個影片才發現找錯資料夾了。😭

最近有一個 AI 開發者分享了一個超猛的做法,他直接在自己的 MacBook 上跑 Google 的 Gemma 4,讓 AI 幫他把一整年的影片全部「索引化」——簡單說,就是讓 AI 幫每個影片寫一段「這段影片在拍什麼」的說明文字,讓你以後可以用搜尋功能直接找到影片。

這是怎麼做到的?(把 AI 變成你的影片管理員)

這位開發者使用的是一台 2021 年的 M1 Max MacBook(記憶體 64GB)。他不是把影片上傳到雲端(這樣太慢且隱私有問題),而是利用 LMStudio 這個工具,在自己的電腦裡跑 Gemma 4 31B 模型。

你可以把這個過程想像成:AI 像是一個超級快讀的助理,他快速地翻閱你的所有影片,每段影片截取 5 張照片,然後記錄下:「這裡有大象」、「這裡在肯亞草原」、「這裡有人在說話」。

為了讓這個「索引檔」更精準,他組合了一套工具鏈,就像是在組裝一台自動化機器:

  • ffprobe & ffmpeg:負責把影片拆開,抓出 5 張代表性畫面(就像幫影片拍快照)。
  • exiftool & Nominatim:把影片裡的 GPS 座標轉換成人類看得懂的地址(例如:從 1.29, 36.82 變成 肯亞馬賽馬拉)。
  • WhisperX:把影片裡的聲音直接轉成文字(就像自動幫你做逐字稿)。
  • insightface:辨識畫面裡出現了誰的臉。
  • Gemma 4 (VLM):這是最核心的大腦,負責看圖說故事,寫出「這段影片拍到了什麼」的描述文字。

實測數據:睡一覺,一年份影片搞定

雖然 M1 Max 已經很強,但跑這種大型 AI 模型還是很吃力。開發者記錄到,在運作過程中,記憶體幾乎被吃滿,系統甚至產生了超過 50GB 的「交換檔案(Swap File)」——你可以想成是記憶體不夠用時,電腦臨時拿硬碟來當記憶體用,雖然慢一點但能跑完。

最終結果: 他花了一整天的時間(大部分時間他在睡覺或做其他事),成功讓 AI 為所有影片生成了對應的 Markdown 索引檔。現在他不需要再猜 IMG_0034.MOV 是什麼,只要在索引檔搜尋關鍵字,就能立刻定位到正確的影片。

你也可以試試看!具體操作步驟

如果你也有一堆亂七八糟的影片,且擁有一台 Mac(建議 M 系列晶片),可以嘗試以下路徑:

  1. 安裝 LMStudio:這是目前最簡單的本地 AI 執行工具,下載後搜尋 Gemma 4 並下載模型。
  2. 前往 GitHub 找 Framedex:這位開發者把所有程式碼都公開了(搜尋 Simbastack-hq/framedex),你可以直接複製他的環境來設定。
  3. 設定路徑:將你的影片資料夾路徑告訴程式,然後按下 Start。
  4. 耐心等待:根據影片數量,可能需要幾個小時到幾天,建議在睡前開啟,讓電腦慢慢跑。

小提醒: 跑本地 AI 非常耗電且會發熱,記得把 MacBook 放在通風處,並接上電源線喔!

不用再忍受亂碼檔名了,現在就打開 LMStudio 試試看吧!