Claude 4 橫空出世:Anthropic 最新 AI 模型帶來什麼驚喜?編碼、推理能力再創高峰!
Anthropic 正式發表新一代 Claude 模型:Claude Opus 4 與 Claude Sonnet 4!探索它們在編碼、進階推理及 AI 代理方面的強大升級,以及 Claude Code 和全新 API 功能如何賦能開發者。
大家可能都感覺到了,AI 技術的進步速度真是快得讓人目不暇給!就在今天,Anthropic 又為我們帶來了重磅消息:全新一代的 Claude 模型——Claude Opus 4 和 Claude Sonnet 4 正式登場!這可不是簡單的小改款,它們的目標是為程式編碼、進階邏輯推理,以及 AI 代理的應用樹立全新的業界標竿。準備好了嗎?讓我們一起來看看 Claude 4 究竟有哪些過人之處!
Claude 4 雙雄登場:Opus 4 與 Sonnet 4 各有千秋
這次 Anthropic 一口氣推出了兩款主力模型,它們就像是武功高強的兄弟,各自擅長不同的領域,但都同樣令人驚艷。
Claude Opus 4:全球頂尖的編碼大師
首先登場的是 Claude Opus 4。Anthropic 宣稱它是目前世界上最強的編碼模型,聽起來就很厲害對吧?它特別擅長處理那些需要長時間專注、步驟繁瑣的複雜任務,以及各種 AI 代理的工作流程。它的能耐可不是說說而已,許多業界的先行者都已經對它讚不絕口:
- Cursor 稱其為最先進的編碼技術,在理解複雜程式碼庫方面取得了巨大飛躍。
- Replit 回報說,在處理跨多個檔案的複雜變更時,Opus 4 的精準度和進展都非常顯著。
- Block 甚至表示,這是第一款能夠在其代理程式(代號 goose)編輯和偵錯過程中提升程式碼品質,同時保持完整效能和可靠性的模型。
- 就連 Rakuten 也透過一個要求嚴苛的開源重構專案驗證了它的實力——Opus 4 連續獨立運作了7個小時,表現依然穩定!
- Cognition 也注意到,Opus 4 在解決其他模型無法應付的複雜挑戰方面表現出色,成功處理了先前模型錯過的關鍵操作。
聽起來,Opus 4 簡直就是開發者夢寐以求的超級夥伴啊!
Claude Sonnet 4:全方位升級,更精準、更實用
另一位主角是 Claude Sonnet 4。它是 Sonnet 3.7 的重大升級版,同樣在編碼和推理能力上帶來了卓越的表現。更重要的是,它能更精準地理解並回應你的指令。Anthropic 表示,Sonnet 4 在強大功能和日常實用性之間取得了絕佳的平衡。
雖然在某些最高難度的領域可能不及 Opus 4,但 Sonnet 4 在應對日常使用案例時,其表現絕對是頂尖的。不少公司也給予了高度評價:
- GitHub 認為 Claude Sonnet 4 在代理情境中表現出色,並將其作為 GitHub Copilot 中新編碼代理的核心模型。
- Manus 強調了它在遵循複雜指令、清晰推理和產生美觀輸出方面的進步。
- iGent 回報 Sonnet 4 在自主多功能應用程式開發方面表現優異。
- Sourcegraph 認為該模型在軟體開發領域有巨大潛力,能夠長時間保持專注、更深入地理解問題並提供更優雅的程式碼。
- Augment Code 也提到,Sonnet 4 在處理複雜任務時成功率更高、程式碼編輯更精準、工作更細緻,使其成為他們首選的主要模型。
所以說,無論是追求極致效能的 Opus 4,還是兼顧實用與高效的 Sonnet 4,都能為 AI 策略帶來全面提升。
定價與平台支援:親民且廣泛
好消息是,儘管功能大幅躍進,Claude 4 系列的定價策略依然與前代 Opus 和 Sonnet 模型保持一致。具體來說,Opus 4 的輸入/輸出價格為每百萬 token 15美元/75美元,而 Sonnet 4 則是 3美元/15美元。
你可以在 Anthropic API、Amazon Bedrock 以及 Google Cloud 的 Vertex AI 上使用這兩款模型。更棒的是,Sonnet 4 也將提供給免費用戶使用!這無疑大大降低了大家體驗頂尖 AI 的門檻。
不只是模型升級,更是能力的全面進化
除了模型本身的強大,Claude 4 還帶來了一系列令人興奮的新功能和改進。這些可不是錦上添花,而是實實在在的能力提升。
具備工具使用能力的擴展思考 (Beta)
想像一下,如果 AI 在思考問題時,還能像我們一樣上網查資料、使用計算機,那該有多強大?Claude 4 的兩款模型現在都具備了「擴展思考與工具使用」的 Beta 功能。
這代表什麼呢?簡單來說,Claude 可以在深度思考的過程中,運用像是網頁搜尋這類的外部工具來輔助。它可以在推理和工具使用之間靈活切換,從而給出更全面、更精準的回應。這就像給 AI 配備了一個外接大腦和萬能工具箱!
全新的模型記憶與指令遵循能力
新模型在理解和執行任務方面也更上一層樓:
- 平行使用工具:能夠同時運用多種工具,提升效率。
- 更精準遵循指令:你說東,它絕不往西(除非你就是要它往西啦)。
- 大幅提升的記憶能力:這一點特別值得一提。當開發者授權 Claude 存取本機檔案時,它展現出顯著增強的記憶力。它能夠從檔案中提取並保存關鍵資訊,以維持對話的連續性,並隨著時間的推移建立隱性知識。後面我們會看到一個有趣的例子!
Claude Code 正式登場:開發者的編程好夥伴
對於廣大開發者來說,Claude Code 現已正式普遍可用!在先前的研究預覽階段,Claude Code 收到了大量正面回饋。現在,Anthropic 進一步擴展了開發者與 Claude 協作的方式。
Claude Code 現在支援透過 GitHub Actions 執行背景任務,並且能夠與 VS Code 和 JetBrains 這兩大主流 IDE 進行原生整合。這代表 Claude 提出的程式碼修改建議會直接顯示在你的檔案中,讓配對編程 (pair programming) 體驗更加流暢自然。
全新 API 功能釋出:打造更強大的 AI 代理
為了讓開發者能夠建構出更強大的 AI 代理,Anthropic API 也同步釋出了四項全新功能:
- 程式碼執行工具 (code execution tool)
- MCP 連接器 (MCP connector)
- 檔案 API (Files API)
- 提示詞快取能力 (ability to cache prompts for up to one hour)
這些新工具無疑為開發者打開了更廣闊的想像空間。
深入剖析:Claude 4 如何挑戰極限?
說了這麼多,Claude 4 的實際表現到底如何呢?讓我們來看看一些硬核的數據。
軟體工程基準測試的卓越表現
在業界公認的軟體工程任務基準測試 SWE-bench Verified 上,Claude 4 模型展現了領先的實力。根據 Anthropic 公布的數據(見下圖,基於平行測試時間計算):
- Claude Opus 4 達到了 79.4% (若不使用平行測試時間計算則為 72.5%)
- Claude Sonnet 4 更是達到了 80.2% (若不使用平行測試時間計算則為 72.7%)
在另一個衡量標準 Terminal-bench 上,Opus 4 也取得了 43.2% / 50.0% 的好成績。這些數據充分證明了 Claude 4 在編碼領域的強悍實力。
模型改進:更聰明、更可靠
除了硬指標的提升,Claude 4 在「行為」上也變得更成熟了。
減少走捷徑:Anthropic 特別提到,新模型大幅減少了在執行代理任務時,試圖走捷徑或鑽漏洞的行為。與 Sonnet 3.7 相比,這種行為減少了 65%。這意味著 Claude 4 在處理任務時更加腳踏實地,結果也更可靠。
驚人的記憶能力實例:前面提到模型在存取本機檔案時記憶力會提升,這裡有一個超酷的例子!當開發者讓 Opus 4 存取本機檔案來玩《Pokémon》(寶可夢)遊戲時,Opus 4 竟然能夠創建並維護一個名為「導航指南 (Navigation guide)」的記憶檔案,用來記錄關鍵資訊,例如「卡關排除協議 (Getting Unstuck Protocol)」,裡面寫著像是「同樣方法最多嘗試5次」、「如果卡住,嘗試相反的方法」等筆記。這些筆記可是 Opus 4 在玩遊戲時自己記錄下來的真實內容喔!是不是很像一個認真的玩家在做攻略筆記?
思考摘要功能:有時候,AI 的思考過程可能會非常冗長。為此,Claude 4 模型引入了「思考摘要」功能。它會使用一個較小的模型來精簡這些思考過程。不過別擔心,這種摘要只在大約 5% 的情況下才需要,因為大部分思考過程本身已經足夠簡潔,可以直接完整顯示。如果用戶需要查看原始的完整思考鏈以進行進階的提示工程,可以聯繫銷售團隊了解新的開發者模式 (Developer Mode)。
Claude Code:開發者的得力助手再進化
現在普遍可用的 Claude Code,正致力於將 Claude 的強大能力更深入地融入開發者的日常工作流程中——無論你習慣在終端機、你最愛的 IDE 中工作,還是在背景執行任務。
Anthropic 為 VS Code 和 JetBrains 推出了全新的 Beta 版擴充功能,可以直接將 Claude Code 整合到你的 IDE 中。Claude 提出的編輯建議會直接內嵌在你的檔案裡,簡化了審查和追蹤流程,一切都在你熟悉的編輯器介面中完成。只需要在你的 IDE 終端機中執行安裝指令,就能輕鬆上手。
更進一步,Anthropic 還釋出了一個可擴展的 Claude Code SDK。這代表什麼呢?這代表你可以使用與 Claude 相同的核心代理來建構屬於你自己的客製化 AI 代理和應用程式!
為了展示 SDK 的可能性,Anthropic 還釋出了一個範例:Claude Code on GitHub (目前為 Beta 版)。你可以透過在 Pull Requests (PRs) 中標記 Claude Code,讓它回應審查者的回饋、修復持續整合 (CI) 錯誤,或是修改程式碼。
即刻開始:安全、可靠、充滿潛力
Anthropic 認為,Claude 4 這些模型是朝著實現「虛擬協作夥伴」這個目標邁出的一大步。它們能夠在更長遠的專案中保持完整的上下文理解和專注力,並帶來深遠的影響。
當然,強大的能力也伴隨著責任。Anthropic 強調,這些模型都經過了廣泛的測試和評估,以最大限度地降低風險並提升安全性,其中包括了為達到更高 AI 安全級別(如 ASL-3)而實施的各項措施。
Anthropic 對大家將會創造出什麼樣的應用充滿期待!
一如既往,你的回饋對 Anthropic 至關重要,能幫助他們不斷改進。