ZAYA1-8B 開源:70 億參數模型數學成績贏 GPT-4o,個人顯卡直接跑

ZAYA1-8B 開源:70 億參數模型數學成績贏 GPT-4o,個人顯卡直接跑

ZAYA1-8B 開源:70 億參數模型數學成績贏 GPT-4o,個人顯卡直接跑

70 億參數打贏千億巨獸!美國新創 Zyphra 開源 ZAYA1-8B

還在排隊等雲端 API?美國 AI 新創 Zyphra 直接把「小鋼炮」模型 ZAYA1-8B 送上 GitHub,總參數 80 億、實際運算只動用 7 億,卻在數學競試 AIME’25 拿下 88.3 %,加點推理解碼衝到 91.9 %,直接貼近 GPT-4o 等級,重點:個人顯卡就能跑,商用免費

為什麼你該關心?

  1. 顯卡等級就能玩——模型大小 15 GB 左右,RTX 4080 16 GB 單卡即可推理,不用租 A100。
  2. 商用開源 Apache 2.0——抓下來就能商用,公司內部導入零授權費。
  3. 數學、程式超強——AIME’25 88.3 %、LiveCodeBench 65 %,補習班題目直接拿來當教材。
  4. 台灣學生福音——離線也能跑,校園網路再爛都不怕。

Mixture of Experts 是什麼?就像「只叫最會的補習老師」

傳統模型 100 % 神經元全開,等同段考前夕把全校老師都叫來陪讀;ZAYA1-8B 採用 MoE 架構,80 億老師常駐待命,但每個 token 只叫醒 7 億「專攻該題型」的老師,省電又省時間。

三招瘦身祕技,讓小模型也能考贏大聯盟

  • Compressed Convolutional Attention(CCA):把自注意力裡的「大合照」裁成「證件照」,記憶體砍半。
  • MLP 路由器:用小型類神經網路決定要叫哪幾位老師,比傳統線性派工更穩定。
  • 可學習殘差縮放:防止「疊積木」太深爆炸,自動把訊號音量轉小,訓練收斂更快。

實測成績單:小蝦米對抗大鯨魚

考卷ZAYA1-8BGPT-4oMistral-Small-119B
AIME’2588.3 %90.1 %86.4 %
HMMT’2582.7 %84.0 %79.9 %
LCB-v6 程式65.0 %67.2 %63.1 %

(以上皆為官方報告數據,實際考生別當真)

下載+啟動只要 3 步驟

  1. 抓模型
    git clone https://huggingface.co/Zyphra/ZAYA1-8B
  2. 裝相依
    pip install transformers torch accelerate
  3. 跑起來
    from transformers import AutoModelForCausalLM, AutoTokenizer
    model = AutoModelForCausalLM.from_pretrained("Zyphra/ZAYA1-8B", device_map="auto")
    tok = AutoTokenizer.from_pretrained("Zyphra/ZAYA1-8B")
    prompt = "請解釋 MoE 模型,用台灣夜市比喻"
    inputs = tok(prompt, return_tensors="pt").to("cuda")
    out = model.generate(**inputs, max_new_tokens=200)
    print(tok.decode(out[0], skip_special_tokens=True))

台灣應用情境

  • 補教業:離線生成數學詳解,不怕題庫外洩。
  • 醫院內網:病歷去識別化後做 AI 問答,資料不出院。
  • 新創公司:客服 Chatbot 原型,零授權費先撐流量。
  • 高中社團:學生用單卡就能研究 AI,會考學測專題現成素材。

硬體花費試算

  • RTX 4080 16 G:約 42,000 台幣,推理 30 token/s 起跳。
  • RTX 3090 24 G:二手 28,000 台幣有找,也能全速跑。
  • 雲端 A100 租 1 週:約 7,000 台幣,夠模型免租金直接省。

限制與注意

  • 中文語料僅佔 20 % 訓練資料,繁體表現略遜簡中。
  • 知識截止 2025/10,2026 時事請搭配 RAG(就是讓 AI 先查資料再回答)。
  • 完整 80 億參數載點 15 GB,手機流量下載請三思。

結論:小模型時代正式開打

ZAYA1-8B 證明「參數多≠成績好」,只要專家挑得準,70 億就能打贏千億巨獸。對台灣開發者、學生、新創來說,等於把頂大補習班名師打包進顯卡,今晚就能下載開課。

現在就打開 Hugging Face,搜尋 Zyphra/ZAYA1-8B,抓模型試試看!