Claude 4 橫空出世:Anthropic 最新 AI 模型帶來什麼驚喜?編碼、推理能力再創高峰!

Anthropic 正式發表新一代 Claude 模型:Claude Opus 4 與 Claude Sonnet 4!探索它們在編碼、進階推理及 AI 代理方面的強大升級,以及 Claude Code 和全新 API 功能如何賦能開發者。

大家可能都感覺到了,AI 技術的進步速度真是快得讓人目不暇給!就在今天,Anthropic 又為我們帶來了重磅消息:全新一代的 Claude 模型——Claude Opus 4Claude Sonnet 4 正式登場!這可不是簡單的小改款,它們的目標是為程式編碼、進階邏輯推理,以及 AI 代理的應用樹立全新的業界標竿。準備好了嗎?讓我們一起來看看 Claude 4 究竟有哪些過人之處!

Claude 4 雙雄登場:Opus 4 與 Sonnet 4 各有千秋

這次 Anthropic 一口氣推出了兩款主力模型,它們就像是武功高強的兄弟,各自擅長不同的領域,但都同樣令人驚艷。

Claude Opus 4:全球頂尖的編碼大師

首先登場的是 Claude Opus 4。Anthropic 宣稱它是目前世界上最強的編碼模型,聽起來就很厲害對吧?它特別擅長處理那些需要長時間專注、步驟繁瑣的複雜任務,以及各種 AI 代理的工作流程。它的能耐可不是說說而已,許多業界的先行者都已經對它讚不絕口:

  • Cursor 稱其為最先進的編碼技術,在理解複雜程式碼庫方面取得了巨大飛躍。
  • Replit 回報說,在處理跨多個檔案的複雜變更時,Opus 4 的精準度和進展都非常顯著。
  • Block 甚至表示,這是第一款能夠在其代理程式(代號 goose)編輯和偵錯過程中提升程式碼品質,同時保持完整效能和可靠性的模型。
  • 就連 Rakuten 也透過一個要求嚴苛的開源重構專案驗證了它的實力——Opus 4 連續獨立運作了7個小時,表現依然穩定!
  • Cognition 也注意到,Opus 4 在解決其他模型無法應付的複雜挑戰方面表現出色,成功處理了先前模型錯過的關鍵操作。

聽起來,Opus 4 簡直就是開發者夢寐以求的超級夥伴啊!

Claude Sonnet 4:全方位升級,更精準、更實用

另一位主角是 Claude Sonnet 4。它是 Sonnet 3.7 的重大升級版,同樣在編碼和推理能力上帶來了卓越的表現。更重要的是,它能更精準地理解並回應你的指令。Anthropic 表示,Sonnet 4 在強大功能和日常實用性之間取得了絕佳的平衡。

雖然在某些最高難度的領域可能不及 Opus 4,但 Sonnet 4 在應對日常使用案例時,其表現絕對是頂尖的。不少公司也給予了高度評價:

  • GitHub 認為 Claude Sonnet 4 在代理情境中表現出色,並將其作為 GitHub Copilot 中新編碼代理的核心模型。
  • Manus 強調了它在遵循複雜指令、清晰推理和產生美觀輸出方面的進步。
  • iGent 回報 Sonnet 4 在自主多功能應用程式開發方面表現優異。
  • Sourcegraph 認為該模型在軟體開發領域有巨大潛力,能夠長時間保持專注、更深入地理解問題並提供更優雅的程式碼。
  • Augment Code 也提到,Sonnet 4 在處理複雜任務時成功率更高、程式碼編輯更精準、工作更細緻,使其成為他們首選的主要模型。

所以說,無論是追求極致效能的 Opus 4,還是兼顧實用與高效的 Sonnet 4,都能為 AI 策略帶來全面提升。

定價與平台支援:親民且廣泛

好消息是,儘管功能大幅躍進,Claude 4 系列的定價策略依然與前代 Opus 和 Sonnet 模型保持一致。具體來說,Opus 4 的輸入/輸出價格為每百萬 token 15美元/75美元,而 Sonnet 4 則是 3美元/15美元。

你可以在 Anthropic API、Amazon Bedrock 以及 Google Cloud 的 Vertex AI 上使用這兩款模型。更棒的是,Sonnet 4 也將提供給免費用戶使用!這無疑大大降低了大家體驗頂尖 AI 的門檻。

不只是模型升級,更是能力的全面進化

除了模型本身的強大,Claude 4 還帶來了一系列令人興奮的新功能和改進。這些可不是錦上添花,而是實實在在的能力提升。

具備工具使用能力的擴展思考 (Beta)

想像一下,如果 AI 在思考問題時,還能像我們一樣上網查資料、使用計算機,那該有多強大?Claude 4 的兩款模型現在都具備了「擴展思考與工具使用」的 Beta 功能。

這代表什麼呢?簡單來說,Claude 可以在深度思考的過程中,運用像是網頁搜尋這類的外部工具來輔助。它可以在推理和工具使用之間靈活切換,從而給出更全面、更精準的回應。這就像給 AI 配備了一個外接大腦和萬能工具箱!

全新的模型記憶與指令遵循能力

新模型在理解和執行任務方面也更上一層樓:

  • 平行使用工具:能夠同時運用多種工具,提升效率。
  • 更精準遵循指令:你說東,它絕不往西(除非你就是要它往西啦)。
  • 大幅提升的記憶能力:這一點特別值得一提。當開發者授權 Claude 存取本機檔案時,它展現出顯著增強的記憶力。它能夠從檔案中提取並保存關鍵資訊,以維持對話的連續性,並隨著時間的推移建立隱性知識。後面我們會看到一個有趣的例子!

Claude Code 正式登場:開發者的編程好夥伴

對於廣大開發者來說,Claude Code 現已正式普遍可用!在先前的研究預覽階段,Claude Code 收到了大量正面回饋。現在,Anthropic 進一步擴展了開發者與 Claude 協作的方式。

Claude Code 現在支援透過 GitHub Actions 執行背景任務,並且能夠與 VS CodeJetBrains 這兩大主流 IDE 進行原生整合。這代表 Claude 提出的程式碼修改建議會直接顯示在你的檔案中,讓配對編程 (pair programming) 體驗更加流暢自然。

全新 API 功能釋出:打造更強大的 AI 代理

為了讓開發者能夠建構出更強大的 AI 代理,Anthropic API 也同步釋出了四項全新功能:

  1. 程式碼執行工具 (code execution tool)
  2. MCP 連接器 (MCP connector)
  3. 檔案 API (Files API)
  4. 提示詞快取能力 (ability to cache prompts for up to one hour)

這些新工具無疑為開發者打開了更廣闊的想像空間。

深入剖析:Claude 4 如何挑戰極限?

說了這麼多,Claude 4 的實際表現到底如何呢?讓我們來看看一些硬核的數據。

軟體工程基準測試的卓越表現

在業界公認的軟體工程任務基準測試 SWE-bench Verified 上,Claude 4 模型展現了領先的實力。根據 Anthropic 公布的數據(見下圖,基於平行測試時間計算):

  • Claude Opus 4 達到了 79.4% (若不使用平行測試時間計算則為 72.5%)
  • Claude Sonnet 4 更是達到了 80.2% (若不使用平行測試時間計算則為 72.7%)

在另一個衡量標準 Terminal-bench 上,Opus 4 也取得了 43.2% / 50.0% 的好成績。這些數據充分證明了 Claude 4 在編碼領域的強悍實力。

模型改進:更聰明、更可靠

除了硬指標的提升,Claude 4 在「行為」上也變得更成熟了。

  • 減少走捷徑:Anthropic 特別提到,新模型大幅減少了在執行代理任務時,試圖走捷徑或鑽漏洞的行為。與 Sonnet 3.7 相比,這種行為減少了 65%。這意味著 Claude 4 在處理任務時更加腳踏實地,結果也更可靠。
  • 驚人的記憶能力實例:前面提到模型在存取本機檔案時記憶力會提升,這裡有一個超酷的例子!當開發者讓 Opus 4 存取本機檔案來玩《Pokémon》(寶可夢)遊戲時,Opus 4 竟然能夠創建並維護一個名為「導航指南 (Navigation guide)」的記憶檔案,用來記錄關鍵資訊,例如「卡關排除協議 (Getting Unstuck Protocol)」,裡面寫著像是「同樣方法最多嘗試5次」、「如果卡住,嘗試相反的方法」等筆記。這些筆記可是 Opus 4 在玩遊戲時自己記錄下來的真實內容喔!是不是很像一個認真的玩家在做攻略筆記?

  • 思考摘要功能:有時候,AI 的思考過程可能會非常冗長。為此,Claude 4 模型引入了「思考摘要」功能。它會使用一個較小的模型來精簡這些思考過程。不過別擔心,這種摘要只在大約 5% 的情況下才需要,因為大部分思考過程本身已經足夠簡潔,可以直接完整顯示。如果用戶需要查看原始的完整思考鏈以進行進階的提示工程,可以聯繫銷售團隊了解新的開發者模式 (Developer Mode)。

Claude Code:開發者的得力助手再進化

現在普遍可用的 Claude Code,正致力於將 Claude 的強大能力更深入地融入開發者的日常工作流程中——無論你習慣在終端機、你最愛的 IDE 中工作,還是在背景執行任務。

Anthropic 為 VS CodeJetBrains 推出了全新的 Beta 版擴充功能,可以直接將 Claude Code 整合到你的 IDE 中。Claude 提出的編輯建議會直接內嵌在你的檔案裡,簡化了審查和追蹤流程,一切都在你熟悉的編輯器介面中完成。只需要在你的 IDE 終端機中執行安裝指令,就能輕鬆上手。

更進一步,Anthropic 還釋出了一個可擴展的 Claude Code SDK。這代表什麼呢?這代表你可以使用與 Claude 相同的核心代理來建構屬於你自己的客製化 AI 代理和應用程式!

為了展示 SDK 的可能性,Anthropic 還釋出了一個範例:Claude Code on GitHub (目前為 Beta 版)。你可以透過在 Pull Requests (PRs) 中標記 Claude Code,讓它回應審查者的回饋、修復持續整合 (CI) 錯誤,或是修改程式碼。

即刻開始:安全、可靠、充滿潛力

Anthropic 認為,Claude 4 這些模型是朝著實現「虛擬協作夥伴」這個目標邁出的一大步。它們能夠在更長遠的專案中保持完整的上下文理解和專注力,並帶來深遠的影響。

當然,強大的能力也伴隨著責任。Anthropic 強調,這些模型都經過了廣泛的測試和評估,以最大限度地降低風險並提升安全性,其中包括了為達到更高 AI 安全級別(如 ASL-3)而實施的各項措施。

Anthropic 對大家將會創造出什麼樣的應用充滿期待!

一如既往,你的回饋對 Anthropic 至關重要,能幫助他們不斷改進。

Share on:
Previous: Claude AI 網頁搜尋功能「突襲」免費開放!你的 AI 助理即時戰力大升級
Next: 撼動 AI 界的開源新星:BAGEL 多模態模型,功能直逼 GPT-4o、Gemini 2.0!
DMflow.chat

DMflow.chat

廣告

一站整合多平台聊天,體驗真人與 AI 自由切換的新境界!支援 Facebook、Instagram、Telegram、LINE 及網站,結合歷史記錄、推播通知、行銷活動及客服轉接,全面提升效率與互動。

Google Veo 3 影片模型大解禁!Gemini App 全球擴展,但「以假亂真」的隱憂也浮現?
28 May 2025

Google Veo 3 影片模型大解禁!Gemini App 全球擴展,但「以假亂真」的隱憂也浮現?

Google Veo 3 影片模型大解禁!Gemini App 全球擴展,但「以假亂真」的隱憂也浮現? Google 最新 AI 影片生成工具 Veo 3 迅速在全球擴展,用戶驚嘆其「神...

Google DeepMind Lyria2 震撼登場:AI 即時譜寫你的音樂狂想曲,高傳真音質顛覆創作想像!
28 May 2025

Google DeepMind Lyria2 震撼登場:AI 即時譜寫你的音樂狂想曲,高傳真音質顛覆創作想像!

Google DeepMind Lyria2 震撼登場:AI 即時譜寫你的音樂狂想曲,高傳真音質顛覆創作想像! Google DeepMind 最新 AI 音樂生成模型 Lyria2 正...

Google Beam橫空出世:2D視訊一秒變3D!跟「尷尬」眼神說掰掰,即時翻譯讓你聊遍全球!
28 May 2025

Google Beam橫空出世:2D視訊一秒變3D!跟「尷尬」眼神說掰掰,即時翻譯讓你聊遍全球!

Google Beam橫空出世:2D視訊一秒變3D!跟「尷尬」眼神說掰掰,即時翻譯讓你聊遍全球! 想像一下,開會不用再盯著冷冰冰的螢幕,而是像跟真人面對面一樣自然交流?Google最新發...

Claude AI 網頁搜尋功能「突襲」免費開放!你的 AI 助理即時戰力大升級
28 May 2025

Claude AI 網頁搜尋功能「突襲」免費開放!你的 AI 助理即時戰力大升級

Claude AI 網頁搜尋功能「突襲」免費開放!你的 AI 助理即時戰力大升級 Anthropic 旗下 AI 助理 Claude 再次震撼市場!原本僅限付費用戶的網頁搜尋功能,現在全...

AI界風雲變色!Anthropic 為何拒絕 Windsurf 使用 Claude 4?商戰大戲上演中!
28 May 2025

AI界風雲變色!Anthropic 為何拒絕 Windsurf 使用 Claude 4?商戰大戲上演中!

AI界風雲變色!Anthropic 為何拒絕 Windsurf 使用 Claude 4?商戰大戲上演中! Anthropic 最新 AI 模型 Claude Sonnet 4 與 Opu...

風起了!Windsurf SWE-1 系列震撼登場:不只寫程式,搞定整個軟體工程,效率直飆99%!
21 May 2025

風起了!Windsurf SWE-1 系列震撼登場:不只寫程式,搞定整個軟體工程,效率直飆99%!

風起了!Windsurf SWE-1 系列震撼登場:不只寫程式,搞定整個軟體工程,效率直飆99%! Windsurf 正式發表其首款自主研發的 AI 模型家族 SWE-1 系列,專為軟體...

Meta推出AI影片生成器:挑戰OpenAI和Google,人工智能競賽再升溫
7 October 2024

Meta推出AI影片生成器:挑戰OpenAI和Google,人工智能競賽再升溫

Meta推出AI影片生成器:挑戰OpenAI和Google,人工智能競賽再升溫 描述 Facebook母公司Meta推出全新AI工具Movie Gen,可根據文字提示生成或編輯影片。這項技術不...

OpenAI 最新基準測試:AI 程式設計能力達到人類四分之一,揭示現有限制
21 February 2025

OpenAI 最新基準測試:AI 程式設計能力達到人類四分之一,揭示現有限制

OpenAI 最新基準測試:AI 程式設計能力達到人類四分之一,揭示現有限制 近年來,AI 在程式設計領域的應用越來越廣泛,但它到底能做到什麼程度?最近,OpenAI 公布了一項重要報告...

WordPress 放大絕!一句話打造專屬網站?AI 助手讓你跟架站煩惱說掰掰!
11 April 2025

WordPress 放大絕!一句話打造專屬網站?AI 助手讓你跟架站煩惱說掰掰!

WordPress 放大絕!一句話打造專屬網站?AI 助手讓你跟架站煩惱說掰掰! 厭倦了複雜的網站架設流程?WordPress 推出革命性 AI 網站建置工具,只要一句話描述你的想法,A...