中國 DeepSeek 深夜放大招:V4 直接開源還超越 Claude Opus 4.6
4 月 24 日晚間,中國 AI 公司 DeepSeek 無預警發布 DeepSeek-V4-Pro 與 DeepSeek-V4-Flash,兩個版本都直接上架 Hugging Face,MIT 授權,台灣 IP 也能秒下載,完全免費。
重點規格一次看
- 模型大小:Pro 版 1.6 兆參數,實際運算只動用 490 億;Flash 版 2,840 億參數,只開 130 億。就像 16 缸引擎平常只用 4 缸,省油又暴力。
- 上下文長度:兩款都吃到 100 萬 token,相當於把《哈利波特》1~7 集+《紅樓夢》全部餵進去再問結局,模型還記得前面誰是誰。
- 訓練資料:32 兆 token,換算就是把整個台灣博客邦、PTT 八卦版、Dcard 全部文章從 1995 年開始每天餵 10 次,餵到 2026 年還有剩。
實測成績:直接踩爆 Claude Opus 4.6
DeepSeek 公布的 HLE(大學級知識考試)與 Codeforces(程式競賽)榜單,DeepSeek-V4-Pro-Max 拿下第一,把 GPT-5.4-xHigh、Gemini-3.1-Pro-High 全甩在後頭。
簡單說:你拿它寫 112 學測數學詳解,正確率比補教名師手寫還高;丟 LeetCode 難題,它直接給你通過率 99% 的 Python code,還附一行「這題可以用雙指標優化」的嘴砲。
速度與荷包友善度
- 推論速度:Pro 版比前代 V3.2 快 3.7 倍,Flash 版快 9.8 倍。就像本來搭 307 客運從台北到台中要 3 小時,現在高鐵 1 小時 10 分還有星巴克喝。
- 記憶體佔用:KV 快取砍半,長篇小說生成不再噴爆 48 GB 顯示卡,4060 Ti 16 GB 也能跑,學生黨笑翻。
台灣開發者 3 步驟立刻玩
- 打開 Hugging Face,搜尋
deepseek-ai/DeepSeek-V4-Pro或DeepSeek-V4-Flash。 - 點選「Files」→ 下載
model.safetensors(或直接用transformers套件一行from_pretrained載入)。 - 裝好 Ollama 或 llama.cpp,把模型丟進去,終端機打
ollama run deepseek-v4-pro,就能在 VS Code 裡面@它幫你解釋 legacy 程式碼。
誰最該立刻試
- 接案工程師:客戶丟 300 頁 PDF 規格書,直接餵模型,5 分鐘生出含頁碼的摘要,報價單秒出。
- 研究生:論文 80 頁文獻回顧,讓它先濃縮 1 頁 A4,再看哪段需要深入,熬夜時間砍半。
- 補教老師:把 10 年學測考古卷+解答掃描丟進去,自動產生「易錯 TOP 10」講義,學生多睡 1 小時。
免費最香,但注意這 2 點
- 中文政治敏感題:模型訓練語料含中國官方文件,問「新疆」或「六四」它會跳針,記得自己過濾。
- 硬體還是要錢:Pro 版完整跑需要 4 張 A100 80 GB,租雲端一小時 1,200 台幣起跳;想省錢就用 Flash 版,本機 4090 24 GB 就能動。
結論:先下載再說
DeepSeek-V4 把「頂級性能」與「完全開源」第一次同時給齊,台灣人不用翻牆、不用刷卡,現在就能載。晚一週,你的 GitHub 競品就比你多 100 stars。
打開 Hugging Face,搜尋 DeepSeek-V4-Pro,點下載,今晚就讓 AI 你寫 code、寫報告、寫人生。