Claude Sonnet 5 發布:效能逼近 Opus 4.8、價格更低,還會乾脆說「不」

Claude Sonnet 5 發布:效能逼近 Opus 4.8、價格更低,還會乾脆說「不」

Claude Sonnet 5 發布:效能逼近 Opus 4.8、價格更低,還會乾脆說「不」

Anthropic 推出 Claude Sonnet 5:更聰明、更便宜、更懂拒絕

Anthropic 今天發布 Claude Sonnet 5,這次升級的重點不是「變多強」,而是「變多划算」——效能逼近自家頂規模型 Opus 4.8,但價格更低,而且學會了乾脆拒絕危險請求。

對每天靠 AI 寫程式、做研究、處理大量資訊的人來說,這就像是原本要租賓士的錢,現在可以開到差不多等級的車。


效能提升:從「夠用」變成「好用」

Sonnet 5 最大的賣點是 縮短了與 Opus 4.8 的差距。根據 Anthropic 官方數據,這幾個領域進步明顯:

能力項目提升重點
推理複雜問題拆解步驟更精準
工具使用呼叫外部 API、資料庫更穩定
寫程式程式碼生成和除錯效率更高
知識工作長文件分析、摘要更到位

實際體驗上,這代表你給 Claude 一個複雜任務,它不需要來回確認那麼多次,一次到位的比例變高了。

舉個生活化的例子:以前請 Claude 幫你整理一份 50 頁的會議紀錄,可能要分段餵、調整三次 prompt;現在可以一次丟進去,它自己會抓重點、分類、標時間軸。


安全升級:學會乾脆說「不」

這次更新另一個亮點是安全評估的進步。Sonnet 5 在 Anthropic 的自動化行為審核中,整體不當行為率比 Sonnet 4.6 更低

什麼意思?簡單說就是:

  • 遇到危險請求,拒絕得更乾淨、更一致
  • 不會有時拒絕、有時又模稜兩可
  • 減少「看起來答了但其實沒答」的狀況

對開發者來說,這很重要。想像你在做一個給學生用的 AI 工具,最怕的就是模型有時候會回答不該回答的東西。Sonnet 5 的「拒絕一致性」讓產品設計更安心。


第三方實測:速度真的有感

不只是 Anthropic 自己說,合作夥伴的數據也佐證了這次升級。

ClickHouse(資料庫公司)提到:

「Claude Sonnet 5 的推理步驟更緊湊,用戶拿到答案的速度明顯更快——這個差異我們的客戶真的感受得到。」

Lovable(AI 開發平台)則說:

「我們把強大工具交給數百萬開發者,一個懂得適時說『不』的模型,跟懂得怎麼建構的模型一樣重要。」

翻譯成白話:以前等 8 秒,現在等 5 秒;以前要確認三次,現在一次搞定。 每天重複 100 次,省下來的時間就很可觀。


還有這些新東西

Claude Tag:終於可以分類對話了

這個功能被埋在新聞稿裡,但對重度使用者超實用——現在可以給對話貼標籤分類

如果你同時用 Claude 處理:

  • 公司的產品規劃
  • 個人的學習筆記
  • 幫朋友改履歷

以前這些全部混在一起,現在可以貼標籤快速篩選。就像 Gmail 的標籤功能,終於不用在對話列表裡大海撈針。

Claude Science:給科學家的 AI 工作台

Anthropic 也推出了 Claude Science,專門給研究人員用的 AI 環境。可以想像成「學術版的 Claude」,針對文獻分析、數據處理、實驗設計優化過。

韓國設點:亞洲布局加速

Anthropic 宣布在首爾設立辦公室,並與韓國 AI 生態系建立合作。這是繼日本之後,亞洲第二個據點。對台灣用戶來說,意味著亞洲區的服務穩定性和在地化支援可能會逐步改善。


網路安全測試:Sonnet 5 不會幫你駭 Firefox

Anthropic 這次也公開了與 Mozilla 合作的資安測試結果。在針對 Firefox 147 漏洞的攻擊開發測試中:

  • Sonnet 5 和 Sonnet 4.6 都無法成功開發出可用攻擊(0.0%)
  • Sonnet 5 的「部分成功」率略高於 4.6,但仍遠低於 Opus 4.8 和 Mythos 5

這個數據要怎麼理解?好消息是 Sonnet 系列整體不會被輕易拿來做壞事;壞消息是如果你需要最強的資安分析能力(例如白帽駭客測試),可能還是要上 Opus 4.8。


台灣人該注意什麼?

如果你本來就在用 Claude:

  • 免費版用戶:應該已經默默換成 Sonnet 5 了,去試試複雜一點的任務,感受差異
  • Pro 用戶:可以考慮把原本開 Opus 的例行工作降級到 Sonnet 5,省點額度

如果你還沒用 Claude:

  • 現在是個好時機。Sonnet 5 的性價比讓它成為「第一個付費 AI 工具」的合理選擇

如果你在做產品開發:

  • 「拒絕一致性」這個特性值得納入評估,尤其是要做給學校、企業、公家機關的應用

試試看吧

現在打開 Claude,開一個新對話,試試這個 prompt:

「幫我整理這份會議紀錄,分成『決議事項』『待確認』『下次討論』三類,每項標記負責人和 deadline。」

貼進去一份 3000 字的雜亂紀錄,看看 Sonnet 5 能不能一次到位——這就是這次升級最實際的差別。