Anthropic 再掀 AI 浪潮!Claude Opus 4.1 正式登場,程式設計與推理能力全面升級
AI 新創公司 Anthropic 於 2025 年 8 月 6 日正式發布最新旗艦模型 Claude Opus 4.1。這次的更新不僅是對前代 Opus 4 的小幅升級,更在代理任務 (agentic tasks)、真實世界程式設計以及複雜推理方面帶來顯著提升。本文將深入探討 Opus 4.1 的各項亮點、與競爭對手的效能比較,以及如何立即開始使用。
就在大家還在驚嘆 AI 技術的飛速發展時,Anthropic 又投下了一顆震撼彈。該公司於 2025 年 8 月 6 日正式推出 Claude Opus 4.1,這是對其廣受好評的 Claude 4 模型的重大升級。這次更新的核心,在於大幅強化了模型在處理複雜任務時的「代理」能力、程式設計的精準度,以及深度推理的表現。
對於許多開發者和企業用戶來說,這無疑是個令人振奮的消息。Anthropic 更預告,在未來幾週內,還將有更大幅度的模型改進計畫。
所以,Opus 4.1 的程式設計能力到底有多強?
老實說,光說「變強了」可能有點空泛。讓數據來說話吧!
在備受業界關注的軟體工程基準測試 SWE-bench Verified 上,Opus 4.1 的準確率達到了驚人的 74.5%。這不僅超越了前代 Opus 4 的 72.5%,更將同系列的 Sonnet 3.7 (62.3%) 遠遠甩在身後。這代表什麼?這意味著 Opus 4.1 在理解和修復真實世界程式碼庫中的錯誤和問題時,表現得更加可靠和高效。
不僅是數據上的勝利,許多業界巨頭也給予了高度評價:
- GitHub 指出,Opus 4.1 相較於 Opus 4,在多數能力上都有所提升,尤其在處理跨越多個檔案的「程式碼重構」任務時,進步尤其顯著。這對於處理大型、複雜專案的開發團隊來說,簡直是天大的好消息。
- 日本樂天集團 (Rakuten Group) 則發現,Opus 4.1 在大型程式碼庫中定位並提出精確修正建議方面表現出色,而且不會產生不必要的修改或引入新的錯誤。他們的團隊因此更傾向於在日常的除錯工作中使用 Opus 4.1,看重的就是這份「精準度」。
- Windsurf 的報告也顯示,在其初級開發者基準測試中,Opus 4.1 的表現比 Opus 4 整整高出一個標準差,這個進步幅度堪比從 Sonnet 3.7 躍升至 Sonnet 4 的巨大跨越。
簡單來說,無論是深度研究、數據分析,還是處理細節追蹤和代理搜尋,Opus 4.1 都展現了更上一層樓的實力。
正面對決!Opus 4.1 與其他頂尖模型的較量
當然,大家最關心的問題肯定是:「跟 OpenAI 和 Google 的模型比起來,Opus 4.1 的表現如何?」
Anthropic 很貼心地提供了一份詳細的比較數據,讓我們能一目了然地看到它與 OpenAI o3 和 Gemini 2.5 Pro 等頂尖模型在各項基準測試上的表現。
基準測試 | Claude Opus 4.1 | Claude Opus 4 | OpenAI o3 | Gemini 2.5 Pro |
---|---|---|---|---|
代理程式設計 (SWE-bench) | 74.5% | 72.5% | 69.1% | 67.2% |
代理終端程式設計 | 43.3% | 39.2% | 30.2% | 25.3% |
研究生級別推理 (GPQA) | 80.9% | 79.6% | 83.3% | 86.4% |
多語言問答 (MMMLU) | 89.5% | 88.8% | 88.8% | — |
視覺推理 (MMMU) | 77.1% | 76.5% | 82.9% | 82.0% |
高中數學競賽 (AIME) | 78.0% | 75.5% | 88.9% | 88.0% |
從表格中可以看出幾個有趣的點:
- 程式設計是王者: 在代理程式設計相關的測試中,Claude Opus 4.1 明顯處於領先地位。
- 各有千秋: 在研究生級別的推理和高中數學競賽等需要極高邏輯推理能力的領域,Gemini 2.5 Pro 和 OpenAI o3 依然表現強勁。
- 多語言能力突出: Opus 4.1 在多語言問答(MMMLU)項目上取得了最高分,顯示其在處理非英語語言上的優勢。
這也提醒了我們,沒有一個模型是「全能冠軍」。不同的模型在不同的應用場景下,依然各有其獨特的優勢。
想馬上試試?如何開始使用 Claude Opus 4.1
說了這麼多,你是不是也躍躍欲試了?Anthropic 建議所有使用者,無論是何種用途,都可以從 Opus 4 升級到 Opus 4.1。
- 付費用戶: 如果您是 Claude 的付費用戶,現在已經可以直接在 Claude.ai 和 Claude Code 中使用 Opus 4.1。
- 開發者: 開發者可以透過 API,使用
claude-opus-4-1-20250805
這個模型名稱來調用。 - 雲端平台: 同時,Opus 4.1 也已經在 Amazon Bedrock 和 Google Cloud 的 Vertex AI 上提供服務。
更棒的是,Opus 4.1 的定價與 Opus 4 完全相同,等於是「加量不加價」,讓使用者能以同樣的成本獲得更強大的性能。
解讀背後:這些酷炫的基準測試是什麼?
你可能會對報告中提到的 SWE-bench、TAU-bench 等名詞感到好奇。這裡簡單說明一下,讓大家更能理解這些測試的意義。
- SWE-bench 方法論: 針對 Claude 4 系列模型,Anthropic 使用了一個簡潔的框架,只配備了兩個基本工具:一個 bash 工具和一個透過字串替換來操作的檔案編輯工具。這模擬了開發者最基礎的工作環境,更能測出模型核心的程式設計能力。
- TAU-bench 方法論: 這項測試旨在評估模型在「使用工具」和「擴展思維」方面的能力。測試中會鼓勵模型在解決問題時,寫下自己的「思考過程」。為了容納這些額外的思考步驟,模型的最大步驟數也從 30 步增加到了 100 步。
總結來說,Claude Opus 4.1 的發布,不僅是 Anthropic 自身技術的一次重要躍進,也為整個 AI 產業的發展注入了新的活力。尤其是在程式設計和自動化任務領域,它的出現將可能改變許多開發者和企業的工作流程,帶來更高的效率和精準度。我們有理由相信,AI 的未來將會更加精彩。