news

AI 日報:Claude Opus 4.5 懂得「慢想」,OpenAI 幫你剁手,Gemini 3 全面解禁

November 25, 2025
Updated Nov 25
2 min read

2025 年 11 月 25 日這一天,或許會在人工智慧發展史上留下一筆濃墨重彩。Anthropic 毫無預警地丟出了殺手鐧——Claude Opus 4.5,這不僅僅是算力的堆疊,更是一次對「AI 該如何工作」的重新定義。與此同時,Google 和 OpenAI 也沒閒著,紛紛在各自擅長的領域祭出新招。這場 AI 競賽,顯然已經從單純的比拼肌肉,轉向了比拼大腦的靈活度與實用性。

Claude Opus 4.5:它不再只是快,而是更「懂」你

大家期待已久的 Claude Opus 4.5 終於正式登場。如果說之前的模型像是剛畢業的高材生,做事快但偶爾莽撞,那麼 Opus 4.5 更像是一位職場老手。根據 Anthropic 內部測試人員的說法,這款模型最大的特點就是它「真的懂了(Gets it)」。

以前我們在指派 AI 處理複雜任務,特別是寫程式或除錯時,總得像保母一樣,一步步告訴它該看哪裡、該注意什麼。但 Opus 4.5 在面對模稜兩可的指令,或是需要在多個方案中取捨時,展現出了驚人的自主判斷力。舉個例子,面對那種讓工程師頭痛的多系統連動 Bug,它能自己梳理出修復路徑,而不需人類過多干涉。

想要速度還是品質?現在你可以自己選

這次更新中最讓人眼睛一亮的功能,莫過於新增的「Effort Control(努力程度控制)」。

這就像是你交辦工作給同事時的場景。有時候,你只需要一個「差不多」的快速答案;但有時候,你需要對方花上幾天時間,把所有可能的極端狀況都考慮進去。透過 Effort Control,開發者可以決定 Claude 該用「直覺」快速回應,還是進入「深思熟慮」模式。

在最高強度的設定下,Opus 4.5 在軟體工程基準測試(SWE-bench Verified)的表現甚至超越了前代霸主 Sonnet 4.5,而且——這點很關鍵——它消耗的 Token 數量還減少了近一半。這意味著模型學會了更聰明的思考路徑,而不是胡亂嘗試。目前定價為每百萬輸入 token 5 美元,輸出 25 美元,這讓企業在導入高階 AI 時,成本壓力減輕了不少。

價格比較

價格比較:每百萬個字符 (Tokens)

  • 輸入: $5 美元/百萬個字符
  • 輸出: $25 美元/百萬個字符

這比之前的 Opus ($15 美元/$75 美元) 便宜得多,也使其在與其他模型的競爭中更具優勢。

競爭對手價格一覽 (每百萬個字符)

模型系列輸入價格 (美元)輸出價格 (美元)備註
新模型525
Opus (舊版)1575
GPT-5.1 系列1.2510
Gemini 3 Pro21220 萬字符以上為 $4/$18
Sonnet 4.5315
Haiku 4.515

開發者的福音:讓 AI 學會使用工具箱

隨著模型越來越聰明,如何讓它們順手地使用外部工具(如 GitHub、Jira、Slack)成了新課題。Anthropic 這次同步發布了 Claude 開發者平台的進階工具功能,解決了長期以來困擾工程師的「上下文爆炸」問題。

這裡有三個關鍵的技術突破:

1. Tool Search Tool:別把整間五金行都揹在身上

過去,開發者為了讓 AI 能使用各種 API,得把成千上萬個工具的定義一次性塞給模型。這就像是水電師傅去修水龍頭,卻把整間五金行的零件都揹在身上,還沒開始工作就累垮了(Token 額度用光)。

新的「工具搜尋工具」允許 AI 在需要時才去「尋找」合適的工具。Claude 會先分析任務,然後主動搜尋「我有什麼工具可以用?」,接著只加載相關的那幾個。測試數據顯示,這種機制能節省高達 85% 的 Token 用量。

2. Programmatic Tool Calling:用程式碼取代碎碎念

傳統的 AI 呼叫工具很像是在玩傳話遊戲: AI:「幫我查 A 數據。」 系統:「好的,這是 A。」 AI:「那再幫我查 B 數據。」 系統:「好的,這是 B。」

這種來回對話不僅慢,還會產生大量中間垃圾資訊。新的「程式化工具呼叫」允許 Claude 直接寫一段 Python 程式碼來協調這些工作。它可以在一個沙盒環境裡自己跑迴圈、做判斷,最後只把「最終結果」回傳出來。這不僅大幅降低延遲,準確度也因為邏輯明確而顯著提升。

3. Tool Use Examples:舉例勝過千言萬語

有時候 API 文件寫得再詳細,都不如給一個實際範例來得清楚。現在開發者可以直接在工具定義中塞入「正確範例」,這對於那些格式龜毛的 API 特別有效。

Google 與 OpenAI 的反擊

當然,競爭對手也不會坐以待斃。Google 陣營傳來好消息,Gemini 3 CLI 的存取權限已全面開放。現在所有付費計劃用戶(包含 Google AI Pro)都能直接透過命令列介面使用這個最新模型,而且針對個人訂閱者的使用配額也大幅提升。Google 顯然正在加速硬體資源的部署,試圖用更充沛的算力來搶佔開發者市場。

OpenAI 則選擇在使用者體驗上出招。還記得每次要在網路上買東西,瀏覽器分頁開到數不清的痛苦嗎?新推出的 Shopping Research 功能 讓 ChatGPT 變身成你的私人採購顧問。它不只是列出連結,而是會進行互動式的研究,幫你整理規格、比價,讓「剁手」決策變得更理性(或者更衝動?)。

此外,針對影片生成模型 Sora,OpenAI 也釋出了 Sora Styles 風格化功能。創作者現在可以指定影片要走「復古風」、「動漫風」或是「新聞報導風」,這讓 AI 影片生成從單純的「抽盲盒」,變成了可控性更高的創作工具。

學術界與開源圈的新玩具

AI 的影響力也持續深入學術界。知名 AI 學者 Andrew Ng(吳恩達)發布了一款名為 Agentic Reviewer 的論文審稿工具。起因是他看到學生為了發表論文,三年內被拒稿六次,每次等待回饋都要耗上大半年。這個 AI 代理能模擬審稿流程,測試顯示其評審結果與人類審稿人的相關性極高。這或許能解決學術圈長久以來的效率痛點。

而在開源模型平台 OpenRouter 上,這兩天出現了一個神秘模型 Bert-Nebulon Alpha。它擁有驚人的 256k 上下文長度,目前標示為隱形測試(Cloaked Model)。雖然名字聽起來很像科幻小說的角色,但據社群挖掘,其底層架構可能來自 Mistral(問他他是誰的時候的回答,因為也很少會自稱是Mistral),但也有看到是GLM的推論(OpenRouter沒看過有中國的隱身模型),專門針對長文本理解進行優化。

常見問題解答 (FAQ)

Q:Claude Opus 4.5 和之前的版本最大的差別是什麼? 最核心的差別在於「智慧」與「彈性」。Opus 4.5 在處理複雜邏輯、寫程式和代理任務上更像人類專家,懂得自我修正。而且它引入了「Effort Control」,讓你可以在「快速回應」與「詳盡思考」之間做選擇,這在商業應用上非常務實。

Q:什麼時候該使用 Tool Search Tool? 當你的 AI 應用需要掛載數十個甚至上百個工具(API)時,一定要用。如果把所有工具定義都塞進 Prompt,不僅貴,還會讓模型變笨。Tool Search Tool 讓模型在需要時才去抓取工具定義,能節省大量 Token 並提升準確率。

Q:Google Gemini 3 一般免費用戶能用嗎? 目前的 CLI 存取權限主要開放給「付費計劃」用戶。如果你是免費用戶,可能還得再等等,或者考慮升級到 Google AI Pro 方案來搶先體驗。

Q:OpenAI 的 Shopping Research 跟 Google 搜尋有什麼不同? Google 搜尋給你的是一堆連結,你得自己點進去消化資訊。Shopping Research 則是幫你「讀」完這些資訊,然後整理成表格或建議給你。它更像是一個會幫你做功課的購物助理,而不僅僅是圖書館管理員。

Q:那個神秘的 Bert-Nebulon Alpha 模型值得試用嗎? 如果你有超長文本(例如整本小說或幾百頁的財報)需要分析,絕對值得一試。它擁有 256k 的上下文視窗,而且目前在 OpenRouter 上似乎是為了收集反饋而開放,對於開發者來說是個不錯的測試機會。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.