Holo3 開源模型讓 AI 幫你點滑鼠,77.8% 任務一次搞定

Holo3 開源模型讓 AI 幫你點滑鼠,77.8% 任務一次搞定

Holo3 開源模型讓 AI 幫你點滑鼠,77.8% 任務一次搞定

什麼是 Holo3?簡單說就是「會看畫面、會點擊」的 AI

想像一下,你把一個實習生綁在螢幕前,他看得懂中文、知道 Excel 在哪、會開 PDF,還會幫你把數字抄到表單裡——Holo3 就是這位實習生的 AI 版本。

  • 多模態:同時讀畫面+文字,就像人眼+大腦
  • 開源:Hugging Face 直接下載,程式碼公開
  • 本地跑:資料留在電腦,老闆不用再擔心機密外洩

為什麼這次大家這麼嗨?

  1. 免費可商用:Apache 2.0 授權,公司也能直接導入
  2. 顯卡親民:30 億活躍參數,RTX 3060 就能順跑
  3. 成績單超漂亮:OSWorld-Verified 77.8%,比很多千億模型還高

實際能幹嘛?三個台灣辦公室最常見的場景

1. 報價單→預算表→簽核信,一條龍

  • 打開廠商 PDF→讀價格→對照內部 Excel→自動填寫簽核表→寄信給主管
  • 原本 20 分鐘,Holo3 跑 3 分鐘,你還能先去倒咖啡

2. 報稅季地獄幫手

  • 財政部報稅軟體跳視窗→AI 幫你點「下一步」、複製統編、貼金額
  • 不會再因為手殘填錯,被退件重跑流程

3. 遊戲掛機也能用

  • 偵測體力值滿了→自動點副本→打完再關遊戲
  • 上班族下班回來剛好收工,完全不浪費能量

模型架構懶人包

項目數據
總參數350 億
實際啟動30 億(Mixture of Experts)
基座模型Qwen3.5-35B-A3B
圖片解析支援 1024×1024 高解析截圖
輸出JSON 動作指令:點擊、滑動、鍵盤輸入

如何下載+10 分鐘快速體驗

步驟 1:安裝依賴

pip install transformers torch pillow

步驟 2:載入模型

from transformers import AutoModel, AutoTokenizer
model_id = "Hcompany/Holo3-35B-A3B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModel.from_pretrained(model_id, trust_remote_code=True)

步驟 3:餵一張截圖+指令

image = Image.open("screenshot.png")
prompt = "幫我把這張發票的金額填入右邊的 Excel 並存檔」
inputs = tokenizer(prompt, image, return_tensors="pt")
action = model.generate(**inputs)

步驟 4:執行動作

回傳 JSON 直接呼叫 pyautogui 或 playwright,就能讓滑鼠真的動起來

企業版還有更狂的

  • 122B 參數大魔王:OSWorld 78.85%,目前公開模型世界第一
  • Synthetic Environment Factory:自動生成訓練環境,公司內部系統也能客製微調
  • 地端/私有雲部署:報價、進銷存、ERP 都能串讓 AI 自己點

注意!別踩這三個坑

  1. 解析度別太小:截圖低於 512×512 會讓 AI 看成馬賽克
  2. 權限要給足:macOS 記得開「輔助使用」、Windows 要跑管理員
  3. 別拿來搶票:高流量網站擋機器人,IP 被封可別哭

結語:把重複點擊交給 AI,你把時間留給創造

Holo3 不是炫技玩具,而是真正把「滑鼠工人」變成「AI 工人」的第一步。現在就打開 Hugging Face,把模型拉下來,讓 AI 幫你點第一下滑鼠,你會發現——下班時間突然提早了。試試看吧!