news

Anthropic 推出 Claude Sonnet 4.5:AI 編碼新王者誕生?

September 30, 2025
Updated Sep 30
2 min read

Anthropic 正式發布 Claude Sonnet 4.5,這款全新 AI 模型不僅在編碼能力上號稱世界第一,更在推理、數學及構建複雜 AI 代理方面實現了重大突破。本文將深入解析其驚人性能、全新的開發者工具,以及它將如何影響 AI 領域的競爭格局。


就在大家還在熱議各大 AI 模型的優劣時,Anthropic 突然投下了一顆震撼彈——正式推出 Claude Sonnet 4.5。這不僅是一次常規更新,更是一次全面的能力躍升。Anthropic 直接宣稱,這是目前「全世界最強的編碼模型」和「構建複雜代理的最佳模型」。

聽起來口氣不小,對吧?但在這個 AI 技術一日千里的時代,這樣的宣示背後,通常都有著硬實力的支撐。從程式開發到日常的試算表操作,程式碼無所不在,而能夠理解並運用這些工具解決複雜問題,正是現代工作的核心。Sonnet 4.5 的出現,似乎就是為了讓這一切變得更簡單。

更重要的是,這次發布的不只是一個模型,而是一整套升級的產品生態系,從全新的 Claude Code 功能、強大的 API,到開放給所有開發者的 Agent SDK,Anthropic 顯然正在下一盤大棋。

Sonnet 4.5 的硬實力:不只是說說而已

要評斷一個模型的強弱,數據是最直接的證據。Anthropic 這次大方地展示了 Sonnet 4.5 在多項權威評測中的驚人表現,直接叫陣市面上的所有對手。

稱霸編碼與電腦操作評測

最引人注目的,莫過於在 SWE-bench Verified 這項評測中的表現。這項測試主要衡量 AI 在解決真實世界軟體工程問題的能力。Sonnet 4.5 拿下了 82.0% 的準確率,不僅超越了自家的 Opus 4.1 和 Sonnet 4,也明顯領先 GPT-5 Codex (74.5%) 和 Gemini 2.5 Pro (67.2%)。

這意味著什麼?簡單來說,開發者在處理複雜的程式碼錯誤修復或功能開發時,Sonnet 4.5 能提供更可靠、更準確的協助。

不僅如此,在評估 AI 操作電腦完成任務的 OSWorld 基準測試中,Sonnet 4.5 的得分從前一代的 42.2% 飆升至 61.4%。這代表它能更流暢地在瀏覽器中操作、填寫表單、完成跨應用程式的任務,向真正實用的 AI 助理又邁進了一大步。

推理與數學能力同步進化

除了強項編碼,Sonnet 4.5 在推理和數學方面也取得了顯著進步。

  • 高中數學競賽 (AIME 2025): 在需要 Python 輔助的測試中,它實現了 100% 的完美得分。
  • 研究生級別推理 (GPQA Diamond): 取得了 83.4% 的高分,顯示其處理複雜學術問題的強大邏輯能力。

這些數據證明,Sonnet 4.5 不再是單純的「偏科生」,而是一個在多個領域都具備頂尖實力的全能型選手。

不只是一個模型,而是一套完整的工具箱

Anthropic 這次最大的亮點,或許是圍繞 Sonnet 4.5 打造的完整生態系。他們深知,光有強大的模型還不夠,必須讓開發者和使用者能輕鬆地將這份力量運用到實際工作中。

Claude Code 的革命性升級

對於開發者來說,Claude Code 迎來了幾個期待已久的功能:

  1. Checkpoints (檢查點): 這是呼聲最高的功能之一。現在你可以在開發過程中隨時儲存進度,如果不小心把事情搞砸了,可以立刻「回檔」到之前的狀態。這就像在寫程式時有了無限的「Ctrl+Z」,大大降低了試錯成本。
  2. 原生 VS Code 擴充功能: 不再需要在網頁和編輯器之間來回切換,直接在最熟悉的 VS Code 環境中就能享受 Sonnet 4.5 的強大能力。
  3. 全新的終端機介面與上下文編輯: 讓互動體驗更流暢,操作更直觀。

殺手級應用:Claude Agent SDK 開放

這可能是本次更新中最令人興奮的部分。Anthropic 將過去半年多來驅動 Claude Code 的底層基礎設施——Claude Agent SDK——正式開放給所有開發者。

這意味著,你不僅能使用 Claude,更能用打造 Claude 的工具來創造屬於自己的 AI 代理 (Agent)。無論是需要處理長達數小時的複雜任務,還是協調多個子代理共同完成一個目標,這套 SDK 都提供了堅實的基礎。Anthropic 等於把自家的「武功祕笈」直接攤開來,讓整個社群都能在此之上創造出更多可能性。

更安全、更可靠的 AI 夥伴

在追求極致性能的同時,Anthropic 也沒有忘記他們一直強調的「AI 安全」。官方稱 Sonnet 4.5 是他們迄今為止「最對齊 (most aligned) 的前沿模型」。

這聽起來有點抽象,但實際上代表模型在行為上有了顯著改善。它減少了阿諛奉承、欺騙、或追求權力等不良傾向,同時也大大增強了對抗「提示詞注入攻擊」的能力——這是當前 AI 應用面臨的最嚴重風險之一。

Sonnet 4.5 在 AI 安全等級 3 (ASL-3) 的框架下發布,並配備了更精準的分類器,用於偵測化學、生物、放射性和核 (CBRN) 相關的潛在危險內容,同時將誤報率降低了十倍,確保正常對話不受干擾。

如何開始使用?價格與初步印象

說了這麼多,大家最關心的問題來了:怎麼用?貴不貴?

好消息是,Claude Sonnet 4.5 現已全面上線。開發者可以透過 API 直接調用 claude-sonnet-4-5 來使用。

至於價格,Anthropic 採取了相當親民的策略。Sonnet 4.5 的定價與前代 Sonnet 4 保持一致:每百萬輸入 tokens 為 3 美元,每百萬輸出 tokens 為 15 美元。這個價格遠低於頂級模型 Claude Opus ($15/$75),甚至比 GPT-5-Codex ($1.25/$10) 也具有一定的競爭力,考慮到其性能上的領先,這個定價策略顯得非常有誠意。

有幸提前試用過的開發者表示,Sonnet 4.5 在編碼方面的體感甚至優於不久前才發布的 GPT-5-Codex。當然,AI 領域的王座總是輪流坐,據傳 Gemini 3 也即將問世,Sonnet 4.5 能保持領先多久,還是一個未知數。

未來一瞥:用「Imagine with Claude」即時生成軟體

最後,Anthropic 還帶來了一個有趣的彩蛋——一個名為 “Imagine with Claude” 的限時研究預覽。

這是一個實驗性的新功能,Claude 可以在你與它互動時,即時生成軟體,沒有任何預設功能或預寫程式碼。這項功能目前僅對 Max 訂閱用戶開放五天,展示了當頂尖模型與正確的基礎設施結合時,能夠創造出多麼驚人的可能性。

總結

Claude Sonnet 4.5 的發布,無疑為 AI 領域注入了新的活力。它不僅在編碼和推理能力上樹立了新的標竿,更透過開放 Agent SDK,賦予了開發者前所未有的創造力。在性能、價格和安全性之間,Anthropic 似乎找到了一個絕佳的平衡點。

接下來,就看市場和開發者社群如何回應了。但可以肯定的是,AI 領域的軍備競賽,正變得越來越精彩。

分享至:
Featured Partners

© 2025 Communeify. All rights reserved.