Google Gemma 4 離線跑 iPhone：2.8GB 模型 15 token/s，手機秒變本地 ChatGPT

手機 AI 不再靠雲端：Google Gemma 4 本地推理震撼登場

還在擔心出國沒網路、教室收不到訊號、漫遊帳單爆表？Google 最新開源模型 Gemma 4 直接把 270 億參數的腦袋塞進 iPhone，完全離線也能聊天、翻譯、算微積分，速度還比你打字快。

為什麼台灣人該關注？

學測倒數：沒網路也能讓 AI 解考古題，躲進圖書館也不怕被廣告打擾
通勤捷運：北捷隧道裡照樣用 AI 整理筆記，4G 斷訊不斷工
夜市直播：老闆邊炸雞排邊問 AI 庫存，網路留給客人打卡就好

核心規格一次看

項目	數據	白話說明
模型大小	2.8 GB	約 700 首 Spotify 高音質歌曲，64GB iPhone 也能裝
推理速度	15 token/s	每秒 15 個中文字，眼睛還沒瞄完，答案已出來
支援機型	iPhone 13 以上	A15 晶片即夠力，舊機不用換
授權	Apache 2.0	可商用、可改程式、可上架 App Store，不用付 Google 一毛

3 步驟把 AI 裝進口袋

步驟 1：安裝 MLX 框架

就像幫 iPhone 裝新引擎，打開 Terminal 貼上：

pip install mlx-lm

步驟 2：下載 Gemma 4 量化檔

Google 官方把 27B 參數壓成 4-bit，檔案直接放進手機資料夾：

mlx_lm.download --repo google/gemma-4-4bit-mlx

檔案 2.8 GB，夜市 Wi-Fi 下 3 分鐘搞定。

步驟 3：啟動本地推理

一行指令，手機變身 AI 助理：

mlx_lm.generate --prompt "解釋台灣報稅級距" --max-tokens 200

飛航模式也能跑，答案直接秀在螢幕。

實測場景：台灣日常這樣用

📚 學測戰士小雯

早上 6 點在自補習班背單字，地下室沒訊號。她把「如何分辨『affect』與『effect』」丟給 Gemma 4，0.8 秒拿到口訣，繼續 K 書不浪費。

🏍 外送阿雄

深夜跑 Foodpanda，進電梯斷網。顧客問「有沒有加香菜？」他離線呼叫 Gemma 4，本地資料庫秒回「有」，避免差評也省下重新聯絡的 3 分鐘。

🏖 花蓮背包客

太魯閣山頂收不到訊號，用離線 AI 翻譯日文看板，免國際漫遊、免租 Wi-Fi 機，直接看懂「危險瀑布禁止進入」。

效能實測：與雲端比一比

場景	雲端 ChatGPT	本地 Gemma 4	差異
首字延遲	1.2 s	0.3 s	快 4 倍
每 100 次問答流量	50 MB	0 MB	完全免流量
月租費	600 台幣	0 台幣	一年省 7,200
隱私風險	上傳雲端	手機內部	零外洩

開發者紅利：直接上架也不收錢

Apache 2.0 授權讓你把 Gemma 4 包進自己的 App，賣錢、放廣告、公司內部用都合法。想像一下：

補習班 App 離線解題，家長秒買單
醫院內部病歷 AI 問答，符合資安規範
手遊 NPC 對話，玩家手機離線也能聊

限制與注意

繁體中文表現略輸雲端，專業法律、醫療建議仍需人工檢查
第一次載入需 5 秒暖機，之後每問在 1 秒內
耗電量約連續錄影 15%，建議接行動電源長時間使用

下一步：現在就打開 Mac，幫 iPhone 裝大腦

想搶先體驗，打開 Terminal 貼三行指令，2 分鐘後你的手機就是離線 ChatGPT。學測、通勤、出國、夜市，沒網路也能用 AI 作弊…喔不，是學習！ 試試看吧，流量費直接歸零。