Google 說的「輕量」Flash,其實是 3000 億參數巨獸
Google 上週發布 Gemini 3.5 Flash,主打「輕量、高速、適合日常任務」。結果 Hacker News 的工程師們把官方數據拿來一算,發現總參數高達 2500~3000 億,根本跟 GPT-4 同級,只是用 MoE(混合專家模型)技術,讓每次實際運算的「活躍參數」只有 100~160 億。
為什麼 Google 要藏規格?
就像手機廠商不告訴你電池真實容量,Google 這次也沒公布參數量。工程師 easygenes 用以下公開資訊逆算:
- 硬體線索:Google 用 TPU 8i 伺服器,單顆記憶體 288 GB
- 速度線索:官方標榜每秒輸出 280 token
- 記憶體分配:靜態權重 110~150 GB,動態 KV 快取 138~178 GB
把這些數字丟進計算機,就得到 2500~3000 億這個驚人數字。
對台灣開發者的 3 個影響
1. 價格其實不便宜
| 模型 | 每 1M token 價格 | 換算台幣 |
|---|---|---|
| Gemini 3.5 Flash | $0.15 USD | $5 |
| GPT-4o mini | $0.05 USD | $1.5 |
| Claude 3.5 Haiku | $0.08 USD | $2.4 |
用在 LINE 客服機器人,一天回 1 萬句話,一個月就多燒 1500 台幣。
2. 速度優勢有限
雖然 Google 說「比前代快 50%」,但實測在台灣連線,延遲主要卡在海底電纜,本地部署的 OpenAI API 反而更快。
3. 長對話會爆記憶體
KV 快取吃掉 138 GB 以上,代表長篇客服對話或整份論文摘要時,超過 8000 token 就會明顯變慢。
工程師實測:Flash 適合這 3 種場景
✅ 適合
- 短問答型客服:一次 200~500 token,成本可控
- 程式碼補全:Android Studio 內建,延遲 < 500ms
- Google 搜尋 AI Mode:官方自己吃成本,你用免錢
❌ 不適合
- 整本小說翻譯:token 費用直接破萬
- 即時語音轉寫:延遲疊加後超過 1 秒,使用者會抓狂
- 大量爬蟲分析:每小時 10 萬次呼叫,帳單直接噴掉
台灣團隊的替代方案
如果預算有限,可以考慮:
- 本地部署 Llama 3.1 8B:總參數 80 億,RTX 4090 單卡就能跑,完全免費
- 用 Claude 3.5 Haiku:參數量不明但價格便宜 47%,中文表現更好
- 混合策略:簡單任務用 GPT-4o mini,複雜任務才呼叫 Gemini Flash
現在就打開 Google AI Studio 算成本
- 進入 Google AI Studio
- 選 Gemini 3.5 Flash 模型
- 貼上你的真實使用情境(例如客服對話 1000 句)
- 看右側「Estimated cost」實際多少錢
- 再跟 GPT-4o mini 比價,就知道該不該換
試試看吧,別被「Flash」兩字騙了荷包!