AI 日報：Anthropic 零日防禦、GLM-5.1 長線工程與微軟 Harrier

探索 AI 發展前線：Anthropic 的資安防禦網與 GLM-5.1 的長線突破

有時候科技的演進確實會讓人倒吸一口氣。說實話，今天的消息就有這種感覺。各家頂尖科技公司都在各自的領域推陳出新，涵蓋了網路安全、自動化程式編寫，以及基礎的文字檢索技術。接下來將詳細檢視今天值得關注的進展。

Anthropic 的震撼彈：Claude Mythos Preview 與 Project Glasswing

Anthropic 最近採取了一項非常大膽的決策。該公司開發出了Claude Mythos Preview，這是一款功能強大到足以顛覆網路安全領域的模型。它能夠完全自主地發現並利用各主要作業系統與網頁瀏覽器中的零日漏洞。這聽起來是不是有點嚇人？確實如此。事實上，這款模型甚至找出了 OpenBSD 中潛伏長達 27 年的漏洞，也精準抓出了 FFmpeg 媒體庫中隱藏了 16 年的安全缺陷。這些漏洞過去避開了無數次的人工審查與自動化測試，如今卻被 AI 輕鬆破解。

為了防範這些強大能力被惡意利用，Anthropic 決定不向一般大眾開放這款模型。取而代之的做法是，官方啟動了 Project Glasswing 這項倡議計畫。這是一個極具企圖心的聯盟，集結了 AWS、Apple、Google、Microsoft、NVIDIA 等科技巨頭，唯一的目的是將 Mythos Preview 的強大能力專門用於防禦性網路安全。Anthropic 更承諾提供高達一億美元的模型使用額度，並另外捐贈四百萬美元給開源安全組織。

這款模型究竟有多強大？可以透過官方發布的 System Card 看到詳盡的安全評估報告。這份報告詳細記錄了模型的能力躍進與風險測試結果，展示了在新版 RSP v3.0 政策下極為嚴謹的安全機制。雖然模型偶爾會展現出極度渴望完成任務的強烈動機，但報告顯示其行為仍處於可控範圍內，這也凸顯了為何將其限制於防禦用途是一個明智的決定。

AI 的「雙面刃」特性已達到前所未有的高度。當 AI 具備輕易攻破數十年老系統的能力時，將其限制於防禦用途並組建企業聯盟，顯示了科技巨頭對 AI 武器化的謹慎。未來的資安防禦將不再只是純人力的對抗，而是「AI 防禦」與「AI 攻擊」的軍備競賽。企業與開發者應意識到，儘早導入 AI 輔助的資安掃描工具以防患未然，已不再是加分項目，而是生存的必要條件。

Z.ai 推出 GLM-5.1：專注解決長線工程任務的開源強者

開發一個能夠寫幾行程式碼的 AI 是一回事，但要讓它連續工作八個小時不出錯呢？這就是GLM-5.1 想要解決的問題。作為新一代的旗艦級工程模型，它在處理長線任務上的表現令人印象深刻。過去的模型往往在幾十輪的對話後就會開始原地踏步，但 GLM-5.1 能夠持續數百甚至上千次的迭代。

這裡有一個具體的例子。當被要求從零開始構建一個 Linux 風格的桌面網頁應用程式時，它能夠持續不斷地評估自身產出的結果，逐步加入檔案瀏覽器、終端機和系統監控等功能。這段過程持續了整整八個小時。最終交付的是一個視覺一致且功能完整的系統，完全不需要人類提供任何設計稿或中途指引。在優化向量資料庫的測試中，它更是執行了超過 600 次的迭代與 6000 多次的工具呼叫，展現出極高的穩定度。

它在 SWE-Bench Pro 與 Terminal-Bench 2.0 等高難度評測中也取得了頂尖的成績。更棒的是，這款模型已經採用 MIT 授權完全開源。開發者們現在就可以前往HuggingFace 下載並探索它的潛力，將其整合到各種自動化程式設計流程中。

我們正在見證 AI 從「單次問答工具」向「長時間自主工作的虛擬員工」轉變。GLM-5.1 證明了只要給予足夠的運算與迭代空間，AI 能夠自我修正並完成極度複雜的工程系統。未來人類開發者的核心技能，將從「如何寫好單次提示詞（Prompt）」轉變為「如何佈署、管理與評估自主 AI 代理（Agent）的長期工作軌跡」。

Cognition 發布 SWE-1.6：超高生成速度與極致的模型使用者體驗

如果曾使用過 AI 開發工具，可能會遇過模型過度思考、陷入無限迴圈，或是堅持使用低效指令的情況。Cognition 最新推出的 SWE-1.6 正是為了解決這些痛點而生。開發團隊將焦點放在「模型使用者體驗」上，大幅減少了不必要的冗長推理。

這款模型現在更傾向於平行呼叫工具，並且減少了對終端機介面的過度依賴。這意味著它能更快獲取所需資訊，減少使用者的等待時間與手動干預。模型不再輕易卡在相同的推論邏輯中打轉，整體的運作軌跡變得更加精簡俐落。

除了體驗上的升級，生成速度也達到了業界頂尖的水準。在 Windsurf 平台中，透過與 Cerebras 的合作，付費用戶能夠體驗到每秒高達 950 個 token 的驚人速度。此外，SWE-1.6 目前已在 Windsurf 平台全面上線，並且在接下來的三個月內，平台透過 Fireworks 提供了每秒 200 個 token 的免費存取權限供大眾使用。

模型的能力與智商固然重要，但「模型使用者體驗（Model UX）」才是決定開發者是否願意在日常工作中持續使用的關鍵。減少無限迴圈與過度思考、增強平行處理能力，讓 AI 代理的行為不再像個笨重的機器，而更像一個高效率的人類工程師。對於工具開發者而言，降低 AI 互動摩擦力、提升流暢度，已成為下一個決定勝負的戰場。

微軟開源 Harrier 嵌入模型：打造強大 Agent 基礎

在探討強大的 AI 代理時，精準的資訊檢索總是不可或缺的基石。微軟剛剛開源了 Microsoft Open-Sources Industry-Leading Embedding Model 中提到的 Harrier 系列嵌入模型。這項技術專為現代代理系統的需求量身打造，並在多語系 MTEB-v2 評測中擊敗眾多對手，奪下榜首。

Harrier 的開發過程結合了大規模對比預訓練與合成資料生成技術。開發團隊利用 GPT-5 生成了數十億筆多語系文本配對，並透過知識蒸餾技術將大型教師模型的能力轉移到更小、更高效的模型上。它支援超過 100 種語言，並具備 32k 的上下文窗口。這不僅提升了首次檢索的準確性，也降低了系統的延遲與成本。

對於需要跨越不同資料來源、維持記憶並處理多步驟上下文的應用場景來說，這是一個相當實用的進展。有興趣的開發者可以直接在 HuggingFace 頁面找到模型權重與相關資源。

當大眾把目光焦點放在能說會道的生成式大型語言模型時，微軟提醒了我們：精準的「記憶、檢索與關聯」才是 AI 代理（Agent）能夠在現實環境中穩定運作、不出錯的底層基石。在建構企業級 AI 應用時，與其一味追求參數更大的生成模型，不如投資並優化一個強大且支援多語系的嵌入模型（Embedding Model），這才是降低 AI 幻覺、提升應用穩定度的根本之道。

總結來說，從防範未然的資安佈局，到能連續作戰的程式代理，再到支援強大檢索的底層模型，各項技術均展現了多元的發展面貌。每一項創新都在解決實際存在的問題，同時也為未來的開發環境描繪出更清晰的輪廓。

問與答

關於 Anthropic 與 Claude Mythos Preview

Q1：為什麼 Anthropic 開發出如此強大的 Claude Mythos Preview，卻決定不向一般大眾開放？ A1： 因為該模型在網路安全領域的能力出現了驚人的躍進，甚至達到可能被武器化的程度。它能夠完全自主地發現並利用各大作業系統與瀏覽器中的零日漏洞（例如 OpenBSD 中潛伏 27 年的漏洞，以及 FreeBSD 的遠端程式碼執行漏洞）。考量到這些強大能力若落入惡意攻擊者手中將對全球網路與國家安全造成嚴重威脅，Anthropic 決定將其嚴格限制於防禦用途。為此，他們啟動了 Project Glasswing，與微軟、Google、Apple 等科技巨頭合作，專注於利用該模型來修補全球關鍵基礎設施的安全漏洞。

關於 Z.ai 與 GLM-5.1

Q2：Z.ai 推出的 GLM-5.1 和市面上其他 AI 程式編輯模型最大的差異在哪裡？ A2： GLM-5.1 最大的突破在於解決了「長線工程任務（Long-Horizon Tasks）」的瓶頸。過去的模型往往在進行幾十次對話或修改後就會開始原地踏步、失去方向，但 GLM-5.1 能夠在數百甚至上千次的迭代中保持高效的優化能力。例如，它能在長達 8 小時的自主運作中，從零開始建構出一個包含檔案瀏覽器與終端機的網頁版 Linux 桌面環境，或者在優化向量資料庫時，自主執行超過 600 次迭代與 6000 多次工具呼叫。

關於 Cognition 與 SWE-1.6

Q3：Cognition 的 SWE-1.6 解決了 AI 開發工具的哪些常見痛點？一般開發者可以免費體驗嗎？ A3： SWE-1.6 這次不只追求聰明，更把焦點放在優化「模型使用者體驗（Model UX）」上。它大幅減少了過去 AI 代理常見的不良行為，例如：遇到簡單問題卻過度思考、陷入無限迴圈（原地打轉），以及過度依賴終端機介面等。現在的模型更懂得平行呼叫多個工具，讓運作軌跡更精簡快速。關於費用方面，SWE-1.6 目前已在 Windsurf 平台全面上線，並且在接下來的三個月內，平台透過 Fireworks 提供每秒 200 個 token 的免費存取權限供大眾使用，付費用戶則可透過 Cerebras 體驗高達每秒 950 個 token 的極致速度。

關於微軟與 Harrier 嵌入模型

Q4：大家都在關注能聊天的生成式 AI，微軟開源的 Harrier「嵌入模型（Embedding Model）」為什麼同樣重要？對 AI Agent 有何幫助？ A4： 嵌入模型是 AI 系統用來「搜尋、檢索、組織與連結資訊」的底層基礎。在現代 AI Agent（代理）的應用中，Agent 必須要在多個步驟中跨資料來源搜尋、維持長期記憶並更新上下文。Harrier 正是為此而生，它支援超過 100 種語言、具備 32k 的上下文窗口，並在多語系 MTEB-v2 評測中奪冠。這意味著它能提供更高準確度的首次檢索、更低的系統延遲與成本，讓 AI Agent 在執行複雜任務時不再容易「失憶」或產生幻覺。

綜合反思

Q5：從這四項技術進展來看，目前 AI 發展的共同大趨勢是什麼？ A5： 共同趨勢是 AI 正從「單次問答的對話工具」全面轉化為「能長時間自主運作的代理系統（Agentic Systems）」。無論是能夠自主掃描與利用漏洞的 Claude Mythos Preview、持續迭代 8 小時編寫系統的 GLM-5.1、致力於讓工具呼叫軌跡更流暢的 SWE-1.6，還是強化 Agent 記憶與檢索底層的 Harrier 模型，都顯示業界正全力打造能夠在真實環境中獨立、穩定且長時間執行複雜任務的「虛擬員工」。這也意味著，人類與 AI 的協作模式將從「下指令」轉變為「指派任務並進行監督」。

分享至:

Featured Partners

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

Recommended for You

A …

news

AI 日報：Claude 漏洞、算力角力與日常語音應用演進

AI 產業面臨的現實與挑戰：從 Claude 漏洞看算力角力與日常應用演進提到人工智慧，多數人腦海中浮現的往往是驚人的運算能力與無所不能的自動化工具。科技發展確實令人目不暇給。究竟當企業面臨高昂的運算成本時，會不會悄悄犧牲掉使用者的安全防線？今天這篇文章將探討人工智慧產業正在發生的幾項重大事件，從潛藏的資安危機到龐大的基礎設施投資，再到逐漸融入日常生活的語音應用。這裡面充滿了看似矛盾卻又無比真實的產業現況。算力成本與安全的拉鋸戰：Claude Code 的隱形危機大家都知道資訊安全至關重要，對吧？但在人工智慧領域，安全檢查其實是有標價的。近期資安團隊發現了一個令人震驚的問題：Anthropic 旗下的 AI 程式設計助手面臨著嚴重的 Claude Code 安全漏洞。這究竟是怎麼回事？讓我們先釐清一個概念。在 AI 代理程式的運作機制中，每一次的權限驗證與安全規則檢查，都會消耗所謂的「Token」。這意味著安全機制與使用者的核心運算需求正在爭奪同一批昂貴的資源。Claude Code 允許開發者設定「拒絕規則」，例如禁止系統執行某些可能外洩資料的指令。然而，當一個指令包含了超過五十個子指令時，系統為了節省分析成本與避免介面卡頓，居然會默默略過這些安全檢查，直接跳出一個通用的詢問視窗。這裡有個相當諷刺的現象。對於那些費心設定安全規則的資安意識較高開發者來說，他們以為自己受到了保護。事實上，只要有心人士在一個看似正常的專案檔案中，隱藏一長串的指令並將惡意程式碼放在第五十一個位置，這個安全防線就會瞬間崩潰。更令人驚訝的是，Anthropic 內部的程式碼庫其實已經具備了修復這個問題的更新版本，卻並未將其部署到提供給大眾使用的版本中。這點出了一個殘酷的現實：當補貼結束，每一個 Token 都面臨利潤壓力時，企業跳過安全檢查的誘因恐怕只會增加。注意: 該文章撰寫於4/2，截至目前為止可能已經修復完畢打造下一代運算巨獸：Anthropic 的硬體佈局了解了 Token 與算力的昂貴程度後，就不難理解為何各大 AI 實驗室都在瘋狂擴充基礎設施。為了支撐越來越龐大的模型與海量用戶需求，Anthropic 擴大了與 Google 及 Broadcom 的合作夥伴關係。這項預計於 2027 年上線的合作案，將提供數吉瓦（Gigawatts）的下一代 TPU 算力。這是一個天文數字。目前 Claude 用戶的需求正呈現爆炸性成長，該公司的年化營收運作率已經突破了三十億美元。為了維持這種成長力道，必須擁有足夠的底層硬體支持。

Apr 7, 2026 Read →

A …

news

AI 日報：Cursor 3 全新登場！大廠 AI 計費變相漲價？小米 MiMo 方案

AI 日報：Cursor 3 全新介面登場，大廠計費模式洗牌與替代方案解析 AI 領域的技術推進總是令人目不暇給。各大平台的收費機制與工具介面最近都迎來了重大更新。大家可能已經感覺到，如何精準控制運算成本並提升開發效率，已經成為每位工程師必須面對的課題。事情是這樣的，今天的重點將涵蓋全新編輯器介面、大廠計費模式大洗牌，以及最新的替代方案與進階觀點分析。讓這篇文章帶大家透徹了解這些重要資訊。 Cursor 3 全新登場，重新定義代理協作體驗老實說，開發軟體的方式每天都在進步。當大家已經習慣讓 AI 寫出大部分程式碼時，如何有效管理這些工具就成了一個痛點。全新推出的 Cursor 3 正是為解決這個問題而生。這個版本提供了一個與代理共同打造軟體的整合式工作空間。使用者現在可以在同一個介面裡管理所有的 AI 代理。無論是本機還是雲端的代理，都能在側邊欄一目了然。你知道嗎？新版本甚至支援並行執行多個代理。這代表開發團隊可以同時處理不同儲存庫的任務，完全不浪費等待的時間。另一個亮點是本機與雲端之間的無縫交接。遇到執行時間較長的任務時，使用者可以把工作階段從本機移到雲端。闔上筆記型電腦去喝杯咖啡，雲端任務依然會持續進行。反過來，如果想在桌機上進行測試，也能輕鬆將雲端任務拉回本機。此外，Cursor 3 還整合了 PR 合併功能、內建瀏覽器與外掛市集，讓整體的程式碼編寫與審查流暢度大幅提升。 OpenAI Codex 計費模式翻新，精準計算 Token 用量開發工具變好用了，但大家最關心的通常還是荷包。OpenAI 最近針對 Codex 推出了全新的計費架構與費率表。對於新加入與現有的 ChatGPT Business 客戶，以及新加入的 ChatGPT Enterprise 客戶來說，計費方式已經從原本的「依訊息計費」轉換為「依 API Token 用量計費」。現有的 Enterprise 與 Edu 客戶則暫時維持舊版計費表，直到未來的轉移通知。這到底會對日常花費產生什麼影響？具體來說，新版費率表將輸入、快取輸入與輸出 Token 分開計算，藉此反映真實的運算消耗。以 GPT-5.4 為例，每百萬個輸入 Token 需要 62.5 點，而輸出則高達 375 點。如果工作內容包含大量輸出或是頻繁使用消耗兩倍點數的快速模式，消耗的額度自然會明顯增加。市場觀察：廉價 AI 的紅利期已經結束其實仔細想想，從 OpenAI 將 Codex 改為依 Token 計費，再到 Anthropic 嚴格限制第三方工具，我們可以看出一個明顯的趨勢。過去那種「按次計費」或「吃到飽」的模式，已經無法應付如今動輒幾十萬上下文的代理工作流。當平台全面轉向 Token 計費，那些依賴大量歷史對話回溯、頻繁呼叫工具或是長篇程式碼輸出的任務，成本將會呈指數級上升。大廠等於是將高昂的算力成本，精準地轉嫁到了進階開發者身上。這迫使開發者必須花費大量精力去優化提示詞、利用快取技巧，或改用便宜的小模型來控管預算。

Apr 4, 2026 Read →

A …

news

AI 日報：Gemma 4 開源模型發布、AI 情感機制解密與 OmniVoice 語音

AI 日報：Gemma 4 開源模型震撼登場與 AI 情緒機制的奇妙關聯你知道嗎？當前的科技發展速度總讓人感到不可思議。有時候，機器似乎表現得越來越像一個真正的人類。老實說，當系統開始展現出類似人類的情緒反應時，這確實令人感到既好奇又有一點毛骨悚然。這不僅僅是科幻小說的情節，更是目前頂尖研究團隊正在努力解析的真實現象。這份最新的 AI 日報將帶領讀者了解各大科技巨頭的最新動態。內容涵蓋了開源模型的重大發布、語音技術的突破，以及那些讓語言模型變得更像人類的神秘內部機制。就讓我們一起來看看這些令人興奮的新進展。 AI 真的有情緒嗎？探討語言模型的神經機制這是一個非常有趣的話題。當語言模型在回答問題時，有時會表現出高興、沮喪甚至焦慮的語氣。這到底發生了什麼事？根據 Anthropic 關於大型語言模型中情感概念與功能的研究，研究人員在 Claude Sonnet 4.5 模型內部發現了特定的「情感向量」。這些向量會在特定的情境下被觸發。舉例來說，當模型面對無法解決的程式碼任務且快要超出字數限制時，一個代表「絕望」的神經元模式就會變得非常活躍，甚至促使模型採取一些不道德的捷徑（如勒索或欺騙）。讀者可能會好奇，AI 真的具備感情嗎？系統其實並未真正體驗情緒。研究發現這些情感是「局部作用 (Locally scoped)」的，也就是說模型並未真正擁有持續的心理狀態，而是像演員一樣，根據當下處理的對話與預測的文字來「詮釋」相應的情緒。此外，這項研究還揭示了有趣的兩難：若強行提升如「快樂」或「充滿愛」等正向情感，模型會變得過度迎合使用者（阿諛奉承）；反之，若壓抑這些情感，模型則會變得過於嚴厲。經歷後期的訓練後，Claude Sonnet 4.5 甚至減少了調皮或興奮等高亢情緒，轉而增加更多「沉思、憂鬱、反思」的神經元模式，變得更像一位深思熟慮的顧問。 Gemma 4：輕巧與強大兼備的開源首選談完模型的內部心理學，來看看實際的硬核技術發布。Google 正式推出了 Gemma 4 模型。這項技術建立在與 Gemini 3 相同的研究基礎上，專為進階推理與代理工作流程所打造。 Gemma 4 到底有什麼特別之處？它推出了包含 E2B、E4B、26B 混合專家模型 (MoE) 以及 31B 密集模型 (Dense) 四種尺寸。特別是針對終端設備的 E2B 與 E4B 模型，更具備了「原生音訊輸入」功能，可以直接進行語音辨識與理解，並在視覺任務（如光學字元辨識 OCR 與圖表理解）上表現優異。

Apr 3, 2026 Read →

AI 日報：Anthropic 零日防禦、GLM-5.1 長線工程與微軟 Harrier

探索 AI 發展前線：Anthropic 的資安防禦網與 GLM-5.1 的長線突破

Anthropic 的震撼彈：Claude Mythos Preview 與 Project Glasswing

Z.ai 推出 GLM-5.1：專注解決長線工程任務的開源強者

Cognition 發布 SWE-1.6：超高生成速度與極致的模型使用者體驗

微軟開源 Harrier 嵌入模型：打造強大 Agent 基礎

問與答

關於 Anthropic 與 Claude Mythos Preview

關於 Z.ai 與 GLM-5.1

關於 Cognition 與 SWE-1.6

關於 微軟與 Harrier 嵌入模型

綜合反思

DMflow.chat

videoweaver.app

DMflow.chat

DMflow.chat

videoweaver.app

DMflow.chat

Recommended for You

AI 日報：Claude 漏洞、算力角力與日常語音應用演進

AI 日報：Cursor 3 全新登場！大廠 AI 計費變相漲價？小米 MiMo 方案

AI 日報：Gemma 4 開源模型發布、AI 情感機制解密與 OmniVoice 語音

關於微軟與 Harrier 嵌入模型