AI 日報：Claude Opus 4.5 懂得「慢想」，OpenAI 幫你剁手，Gemini 3 全面解禁

筆濃墨重彩。Anthropic 毫無預警地

了殺手鐧——Claude Opus

。與此同時，Google 和 Ope

gle 和 OpenAI 也沒閒著，

25 10 Gemini 3 Pro

部工具（如 GitHub、Jira、

news

AI 日報：Claude Opus 4.5 懂得「慢想」，OpenAI 幫你剁手，Gemini 3 全面解禁

2025-11-25

2025 年 11 月 25 日這一天，或許會在人工智慧發展史上留下一筆濃墨重彩。Anthropic 毫無預警地丟出了殺手鐧——Claude Opus 4.5，這不僅僅是算力的堆疊，更是一次對「AI 該如何工作」的重新定義。與此同時，Google 和 OpenAI 也沒閒著，紛紛在各自擅長的領域祭出新招。這場 AI 競賽，顯然已經從單純的比拼肌肉，轉向了比拼大腦的靈活度與實用性。

Claude Opus 4.5：它不再只是快，而是更「懂」你

大家期待已久的 Claude Opus 4.5 終於正式登場。如果說之前的模型像是剛畢業的高材生，做事快但偶爾莽撞，那麼 Opus 4.5 更像是一位職場老手。根據 Anthropic 內部測試人員的說法，這款模型最大的特點就是它「真的懂了（Gets it）」。

以前我們在指派 AI 處理複雜任務，特別是寫程式或除錯時，總得像保母一樣，一步步告訴它該看哪裡、該注意什麼。但 Opus 4.5 在面對模稜兩可的指令，或是需要在多個方案中取捨時，展現出了驚人的自主判斷力。舉個例子，面對那種讓工程師頭痛的多系統連動 Bug，它能自己梳理出修復路徑，而不需人類過多干涉。

想要速度還是品質？現在你可以自己選

這次更新中最讓人眼睛一亮的功能，莫過於新增的「Effort Control（努力程度控制）」。

這就像是你交辦工作給同事時的場景。有時候，你只需要一個「差不多」的快速答案；但有時候，你需要對方花上幾天時間，把所有可能的極端狀況都考慮進去。透過 Effort Control，開發者可以決定 Claude 該用「直覺」快速回應，還是進入「深思熟慮」模式。

在最高強度的設定下，Opus 4.5 在軟體工程基準測試（SWE-bench Verified）的表現甚至超越了前代霸主 Sonnet 4.5，而且——這點很關鍵——它消耗的 Token 數量還減少了近一半。這意味著模型學會了更聰明的思考路徑，而不是胡亂嘗試。目前定價為每百萬輸入 token 5 美元，輸出 25 美元，這讓企業在導入高階 AI 時，成本壓力減輕了不少。

價格比較

價格比較：每百萬個字符 (Tokens)

輸入： $5 美元/百萬個字符
輸出： $25 美元/百萬個字符

這比之前的 Opus ($15 美元/$75 美元) 便宜得多，也使其在與其他模型的競爭中更具優勢。

競爭對手價格一覽 (每百萬個字符)

模型系列	輸入價格 (美元)	輸出價格 (美元)	備註
新模型	5	25
Opus (舊版)	15	75
GPT-5.1 系列	1.25	10
Gemini 3 Pro	2	12	20 萬字符以上為 $4/$18
Sonnet 4.5	3	15
Haiku 4.5	1	5

開發者的福音：讓 AI 學會使用工具箱

隨著模型越來越聰明，如何讓它們順手地使用外部工具（如 GitHub、Jira、Slack）成了新課題。Anthropic 這次同步發布了 Claude 開發者平台的進階工具功能，解決了長期以來困擾工程師的「上下文爆炸」問題。

這裡有三個關鍵的技術突破：

1. Tool Search Tool：別把整間五金行都揹在身上

過去，開發者為了讓 AI 能使用各種 API，得把成千上萬個工具的定義一次性塞給模型。這就像是水電師傅去修水龍頭，卻把整間五金行的零件都揹在身上，還沒開始工作就累垮了（Token 額度用光）。

新的「工具搜尋工具」允許 AI 在需要時才去「尋找」合適的工具。Claude 會先分析任務，然後主動搜尋「我有什麼工具可以用？」，接著只加載相關的那幾個。測試數據顯示，這種機制能節省高達 85% 的 Token 用量。

2. Programmatic Tool Calling：用程式碼取代碎碎念

傳統的 AI 呼叫工具很像是在玩傳話遊戲： AI：「幫我查 A 數據。」系統：「好的，這是 A。」 AI：「那再幫我查 B 數據。」系統：「好的，這是 B。」

這種來回對話不僅慢，還會產生大量中間垃圾資訊。新的「程式化工具呼叫」允許 Claude 直接寫一段 Python 程式碼來協調這些工作。它可以在一個沙盒環境裡自己跑迴圈、做判斷，最後只把「最終結果」回傳出來。這不僅大幅降低延遲，準確度也因為邏輯明確而顯著提升。

3. Tool Use Examples：舉例勝過千言萬語

有時候 API 文件寫得再詳細，都不如給一個實際範例來得清楚。現在開發者可以直接在工具定義中塞入「正確範例」，這對於那些格式龜毛的 API 特別有效。

Google 與 OpenAI 的反擊

當然，競爭對手也不會坐以待斃。Google 陣營傳來好消息，Gemini 3 CLI 的存取權限已全面開放。現在所有付費計劃用戶（包含 Google AI Pro）都能直接透過命令列介面使用這個最新模型，而且針對個人訂閱者的使用配額也大幅提升。Google 顯然正在加速硬體資源的部署，試圖用更充沛的算力來搶佔開發者市場。

OpenAI 則選擇在使用者體驗上出招。還記得每次要在網路上買東西，瀏覽器分頁開到數不清的痛苦嗎？新推出的 Shopping Research 功能讓 ChatGPT 變身成你的私人採購顧問。它不只是列出連結，而是會進行互動式的研究，幫你整理規格、比價，讓「剁手」決策變得更理性（或者更衝動？）。

此外，針對影片生成模型 Sora，OpenAI 也釋出了 Sora Styles 風格化功能。創作者現在可以指定影片要走「復古風」、「動漫風」或是「新聞報導風」，這讓 AI 影片生成從單純的「抽盲盒」，變成了可控性更高的創作工具。

學術界與開源圈的新玩具

AI 的影響力也持續深入學術界。知名 AI 學者 Andrew Ng（吳恩達）發布了一款名為 Agentic Reviewer 的論文審稿工具。起因是他看到學生為了發表論文，三年內被拒稿六次，每次等待回饋都要耗上大半年。這個 AI 代理能模擬審稿流程，測試顯示其評審結果與人類審稿人的相關性極高。這或許能解決學術圈長久以來的效率痛點。

而在開源模型平台 OpenRouter 上，這兩天出現了一個神秘模型 Bert-Nebulon Alpha。它擁有驚人的 256k 上下文長度，目前標示為隱形測試（Cloaked Model）。雖然名字聽起來很像科幻小說的角色，但據社群挖掘，其底層架構可能來自 Mistral(問他他是誰的時候的回答，因為也很少會自稱是Mistral)，但也有看到是GLM的推論(OpenRouter沒看過有中國的隱身模型)，專門針對長文本理解進行優化。

常見問題解答 (FAQ)

Q：Claude Opus 4.5 和之前的版本最大的差別是什麼？ 最核心的差別在於「智慧」與「彈性」。Opus 4.5 在處理複雜邏輯、寫程式和代理任務上更像人類專家，懂得自我修正。而且它引入了「Effort Control」，讓你可以在「快速回應」與「詳盡思考」之間做選擇，這在商業應用上非常務實。

Q：什麼時候該使用 Tool Search Tool？ 當你的 AI 應用需要掛載數十個甚至上百個工具（API）時，一定要用。如果把所有工具定義都塞進 Prompt，不僅貴，還會讓模型變笨。Tool Search Tool 讓模型在需要時才去抓取工具定義，能節省大量 Token 並提升準確率。

Q：Google Gemini 3 一般免費用戶能用嗎？ 目前的 CLI 存取權限主要開放給「付費計劃」用戶。如果你是免費用戶，可能還得再等等，或者考慮升級到 Google AI Pro 方案來搶先體驗。

Q：OpenAI 的 Shopping Research 跟 Google 搜尋有什麼不同？ Google 搜尋給你的是一堆連結，你得自己點進去消化資訊。Shopping Research 則是幫你「讀」完這些資訊，然後整理成表格或建議給你。它更像是一個會幫你做功課的購物助理，而不僅僅是圖書館管理員。

Q：那個神秘的 Bert-Nebulon Alpha 模型值得試用嗎？ 如果你有超長文本（例如整本小說或幾百頁的財報）需要分析，絕對值得一試。它擁有 256k 的上下文視窗，而且目前在 OpenRouter 上似乎是為了收集反饋而開放，對於開發者來說是個不錯的測試機會。

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

A …

news

AI 日報｜月之暗面開源 Kimi K3 2.8T 模型、NVIDIA 重金投資 SSI、微軟發布 MAI-Cyber-1-Flash

AI 日報 | 2026-07-28 💡 此文章是自動產生，於每天早上九點自動更新。模型發布/更新 Kimi K3 (2.8T MoE) — 月之暗面 (Moonshot AI) 一言以蔽之：月之暗面正式開源擁有 2.8 兆引數的旗艦 MoE 模型 Kimi K3，帶來 1M Context 及原生視覺理解能力。核心亮點：採用混合架構（KDA 線性注意力與 24 層 MLA 交錯），實現每單位計算 2.5 倍的智慧提升，大幅最佳化推理效率與記憶體佔用。同步開源高效能注意力 Kernel、MoE 通訊庫以及大規模 AI Agent 執行環境平臺 AgentENV。技術規格：2.8T 引數 MoE / 開源模型 / 原生多模態與 1M 上下文視窗傳送門：Hugging Face 儲存庫 MAI-Cyber-1-Flash — 微軟 (Microsoft) 一言以蔽之：微軟發布首款網路安全專用 AI 模型 MAI-Cyber-1-Flash，以半數成本提供前沿級漏洞檢測與防禦能力。核心亮點：在 CyberGym 基準測試中取得 95.95% 的成功率，顯著超越同類安全專用模型。配合多 AI Agent 安全系統 MDASH，可自動化處理高達 90% 的例行資安防衛與漏洞修復任務。技術規格：專用資安模型 / 閉源平臺整合 / 低延遲高吞吐傳送門：Today, we are announcing a series of updates that give customers frontier-grade security at half the cost. MAI-Cyber-1-Flash is our first cybersecurity model, built ground up to find the most challenging vulnerabilities in complex code bases. When combined with MDASH, it… pic.twitter.com/npcIihN1H7

Jul 28, 2026 Read →

A …

news

AI日報｜ChatGPT桌面端語音開放，FLUX 3同步生成影音，微軟發表MAI雙模型

AI日報｜ChatGPT桌面端語音開放，FLUX 3同步生成影音，微軟發表MAI雙模型今日重點語音助理大升級：OpenAI 把語音控制搬上桌面，Claude 則開始陪你用語音拆解複雜難題。 FLUX 3 多模態震撼登場：BFL 採用單一架構，同步生成高解析度影片、影像與原生音訊，打破影音生成極限。微軟發布 MAI 雙模型：MAI Image-2.5-Pro 終於搞定圖片裡的文字渲染，還能直接用白話文修圖。小模型發威：Ling-3.0-flash 與 KAT-Coder-V2.5-Dev 靠著混合專家（MoE）架構榨出驚人效能。工作流升級：Runway 推出幫你挑模型的「媒體路由器」，OpenAI Codex 終於支援跨資料夾協作。底層技術突破：PaddlePaddle 實現階層式平行文件解析，LLaDA2.2-flash 讓語言模型也能邊生成邊「修改」。技術名詞速覽 MoE（混合專家架構）：系統把模型拆成多個「專家」，每次生成只喚醒需要的少數參數，省算力又保證品質。階層式平行解碼（Hierarchical Parallel Decoding）：不再像以前那樣一個字一個字慢慢吐。主分支管全局排版，其他分支同時處理局部內容，解析長文件的速度直接翻倍。萊文斯坦編輯（Levenshtein Editing）：擴散語言模型的新機制。白話來說，模型在平行輸出的過程中，可以直接「插入」或「刪除」字元來抓蟲修正。重大新聞 1. 語音控制與個人健康數據的無縫結合用嘴巴寫程式、控制電腦，聽起來有點像早期的科幻片，但 OpenAI 剛把它搬進了 macOS 和 Windows 的桌面版。靠著 GPT-Live 的即時能力，你現在可以直接開口指揮背景的 Codex 幫忙處理專案。ChatGPT Voice is now in the desktop app. Control your computer and direct multiple agents running in ChatGPT Work or Codex, using just your voice. It's powered by GPT-Live, so it can speak, listen, and coordinate work in the app at the same time. Rolling out globally today… pic.twitter.com/ODZWKqecCf

Jul 24, 2026 Read →

A …

news

AI日報｜OpenAI 推出企業代理 Presence、微軟釋出輕量生圖 Mage-Flow、Cursor 上線智慧路由器

AI 快訊：OpenAI 推出企業代理 Presence、微軟釋出輕量生圖 Mage-Flow、Cursor 上線智慧路由器今日重點 OpenAI 推出企業級代理 Presence：將模型推理能力與嚴格的內部護欄綁定，試圖解決 AI 代理進入商業生產線的信任危機。微軟釋出 4B 輕量模型 Mage-Flow：捨棄傳統裁切法，以原生解析度訓練，用極低的硬體需求挑戰頂尖開源生圖系統。 Upstage 開源 250B 代理特化模型 Solar Open 2：專攻複雜工具調用與長文本處理，且只需兩張企業級 GPU 即可本地部署。科技巨頭撒幣支援基礎科學：Google 與 OpenAI 雙雙投入鉅資支援美國 Genesis 任務，Anthropic 則砸下兩億美元探討 AI 的社會與經濟衝擊。 Cursor 上線智慧路由器：自動在背景依據任務難度切換大中小型模型，幫開發團隊省下大筆 API 費用。為什麼你要在意過去一兩年，大家都在盯著哪家大廠能堆出參數量更暴力的語言模型。但最近風向變了。比起在跑分榜上稱霸，業界現在更關心這些「聰明的大腦」能不能真正在辦公室裡幹活。企業要的是能穩定執行 SOP 的系統，這正是近期專注於工作流程的 AI 代理（Agent）紛紛出籠的原因。與此同時，國家級的科學研究也開始大舉導入 AI 算力。這意味著技術落地已經跨過單純的「聊天對話」，進入解決真實世界複雜挑戰的深水區。看懂這波基礎設施與代理化趨勢，你才能掌握科技圈接下來的遊戲規則。技術名詞速覽 MoE（混合專家架構）：把大模型拆成多個專精不同領域的小專家。生成時只喚醒需要的那幾個，用極低運算成本換取大模型的推理品質。 NoPE（無位置編碼）：捨棄傳統的位置編碼，改用語境與線性注意力層的循環狀態來理解序列，這讓模型能處理超越訓練長度的超長文本。 Native-Resolution MMDiT（原生解析度多模態擴散變換器）：它能直接處理各種長寬比的原始圖像與文本，不用事先死板地裁切或補黑邊。重大新聞 1. OpenAI 讓企業不再苦惱：AI 代理 Presence 正式上線大家都知道 AI 代理潛力無窮，但真要讓它去改動公司資料庫或處理客戶帳單？沒幾家企業有這個膽量。OpenAI 新推出的 Presence 就是衝著這個「信任缺口」來的。

Jul 23, 2026 Read →

AI 日報：Claude Opus 4.5 懂得「慢想」，OpenAI 幫你剁手，Gemini 3 全面解禁

Claude Opus 4.5：它不再只是快，而是更「懂」你

想要速度還是品質？現在你可以自己選

價格比較

價格比較：每百萬個字符 (Tokens)

競爭對手價格一覽 (每百萬個字符)

開發者的福音：讓 AI 學會使用工具箱

1. Tool Search Tool：別把整間五金行都揹在身上

2. Programmatic Tool Calling：用程式碼取代碎碎念

3. Tool Use Examples：舉例勝過千言萬語

Google 與 OpenAI 的反擊

學術界與開源圈的新玩具

常見問題解答 (FAQ)

DMflow.chat

videoweaver.app

scribis.app

DMflow.chat

DMflow.chat

videoweaver.app

scribis.app

DMflow.chat

Recommended for You

AI 日報｜月之暗面開源 Kimi K3 2.8T 模型、NVIDIA 重金投資 SSI、微軟發布 MAI-Cyber-1-Flash

AI日報｜ChatGPT桌面端語音開放，FLUX 3同步生成影音，微軟發表MAI雙模型

AI日報｜OpenAI 推出企業代理 Presence、微軟釋出輕量生圖 Mage-Flow、Cursor 上線智慧路由器

Leaving Website