70 億參數打贏千億巨獸!美國新創 Zyphra 開源 ZAYA1-8B
還在排隊等雲端 API?美國 AI 新創 Zyphra 直接把「小鋼炮」模型 ZAYA1-8B 送上 GitHub,總參數 80 億、實際運算只動用 7 億,卻在數學競試 AIME’25 拿下 88.3 %,加點推理解碼衝到 91.9 %,直接貼近 GPT-4o 等級,重點:個人顯卡就能跑,商用免費。
為什麼你該關心?
- 顯卡等級就能玩——模型大小 15 GB 左右,RTX 4080 16 GB 單卡即可推理,不用租 A100。
- 商用開源 Apache 2.0——抓下來就能商用,公司內部導入零授權費。
- 數學、程式超強——AIME’25 88.3 %、LiveCodeBench 65 %,補習班題目直接拿來當教材。
- 台灣學生福音——離線也能跑,校園網路再爛都不怕。
Mixture of Experts 是什麼?就像「只叫最會的補習老師」
傳統模型 100 % 神經元全開,等同段考前夕把全校老師都叫來陪讀;ZAYA1-8B 採用 MoE 架構,80 億老師常駐待命,但每個 token 只叫醒 7 億「專攻該題型」的老師,省電又省時間。
三招瘦身祕技,讓小模型也能考贏大聯盟
- Compressed Convolutional Attention(CCA):把自注意力裡的「大合照」裁成「證件照」,記憶體砍半。
- MLP 路由器:用小型類神經網路決定要叫哪幾位老師,比傳統線性派工更穩定。
- 可學習殘差縮放:防止「疊積木」太深爆炸,自動把訊號音量轉小,訓練收斂更快。
實測成績單:小蝦米對抗大鯨魚
| 考卷 | ZAYA1-8B | GPT-4o | Mistral-Small-119B |
|---|---|---|---|
| AIME’25 | 88.3 % | 90.1 % | 86.4 % |
| HMMT’25 | 82.7 % | 84.0 % | 79.9 % |
| LCB-v6 程式 | 65.0 % | 67.2 % | 63.1 % |
(以上皆為官方報告數據,實際考生別當真)
下載+啟動只要 3 步驟
- 抓模型
git clone https://huggingface.co/Zyphra/ZAYA1-8B - 裝相依
pip install transformers torch accelerate - 跑起來
from transformers import AutoModelForCausalLM, AutoTokenizer model = AutoModelForCausalLM.from_pretrained("Zyphra/ZAYA1-8B", device_map="auto") tok = AutoTokenizer.from_pretrained("Zyphra/ZAYA1-8B") prompt = "請解釋 MoE 模型,用台灣夜市比喻" inputs = tok(prompt, return_tensors="pt").to("cuda") out = model.generate(**inputs, max_new_tokens=200) print(tok.decode(out[0], skip_special_tokens=True))
台灣應用情境
- 補教業:離線生成數學詳解,不怕題庫外洩。
- 醫院內網:病歷去識別化後做 AI 問答,資料不出院。
- 新創公司:客服 Chatbot 原型,零授權費先撐流量。
- 高中社團:學生用單卡就能研究 AI,會考學測專題現成素材。
硬體花費試算
- RTX 4080 16 G:約 42,000 台幣,推理 30 token/s 起跳。
- RTX 3090 24 G:二手 28,000 台幣有找,也能全速跑。
- 雲端 A100 租 1 週:約 7,000 台幣,夠模型免租金直接省。
限制與注意
- 中文語料僅佔 20 % 訓練資料,繁體表現略遜簡中。
- 知識截止 2025/10,2026 時事請搭配 RAG(就是讓 AI 先查資料再回答)。
- 完整 80 億參數載點 15 GB,手機流量下載請三思。
結論:小模型時代正式開打
ZAYA1-8B 證明「參數多≠成績好」,只要專家挑得準,70 億就能打贏千億巨獸。對台灣開發者、學生、新創來說,等於把頂大補習班名師打包進顯卡,今晚就能下載開課。
現在就打開 Hugging Face,搜尋 Zyphra/ZAYA1-8B,抓模型試試看!