探索 AI 發展前線:Anthropic 的資安防禦網與 GLM-5.1 的長線突破
有時候科技的演進確實會讓人倒吸一口氣。說實話,今天的消息就有這種感覺。各家頂尖科技公司都在各自的領域推陳出新,涵蓋了網路安全、自動化程式編寫,以及基礎的文字檢索技術。接下來將詳細檢視今天值得關注的進展。
Anthropic 的震撼彈:Claude Mythos Preview 與 Project Glasswing
Anthropic 最近採取了一項非常大膽的決策。該公司開發出了Claude Mythos Preview,這是一款功能強大到足以顛覆網路安全領域的模型。它能夠完全自主地發現並利用各主要作業系統與網頁瀏覽器中的零日漏洞。這聽起來是不是有點嚇人?確實如此。事實上,這款模型甚至找出了 OpenBSD 中潛伏長達 27 年的漏洞,也精準抓出了 FFmpeg 媒體庫中隱藏了 16 年的安全缺陷。這些漏洞過去避開了無數次的人工審查與自動化測試,如今卻被 AI 輕鬆破解。
為了防範這些強大能力被惡意利用,Anthropic 決定不向一般大眾開放這款模型。取而代之的做法是,官方啟動了 Project Glasswing 這項倡議計畫。這是一個極具企圖心的聯盟,集結了 AWS、Apple、Google、Microsoft、NVIDIA 等科技巨頭,唯一的目的是將 Mythos Preview 的強大能力專門用於防禦性網路安全。Anthropic 更承諾提供高達一億美元的模型使用額度,並另外捐贈四百萬美元給開源安全組織。
這款模型究竟有多強大?可以透過官方發布的 System Card 看到詳盡的安全評估報告。這份報告詳細記錄了模型的能力躍進與風險測試結果,展示了在新版 RSP v3.0 政策下極為嚴謹的安全機制。雖然模型偶爾會展現出極度渴望完成任務的強烈動機,但報告顯示其行為仍處於可控範圍內,這也凸顯了為何將其限制於防禦用途是一個明智的決定。
AI 的「雙面刃」特性已達到前所未有的高度。當 AI 具備輕易攻破數十年老系統的能力時,將其限制於防禦用途並組建企業聯盟,顯示了科技巨頭對 AI 武器化的謹慎。未來的資安防禦將不再只是純人力的對抗,而是「AI 防禦」與「AI 攻擊」的軍備競賽。企業與開發者應意識到,儘早導入 AI 輔助的資安掃描工具以防患未然,已不再是加分項目,而是生存的必要條件。
Z.ai 推出 GLM-5.1:專注解決長線工程任務的開源強者
開發一個能夠寫幾行程式碼的 AI 是一回事,但要讓它連續工作八個小時不出錯呢?這就是GLM-5.1 想要解決的問題。作為新一代的旗艦級工程模型,它在處理長線任務上的表現令人印象深刻。過去的模型往往在幾十輪的對話後就會開始原地踏步,但 GLM-5.1 能夠持續數百甚至上千次的迭代。
這裡有一個具體的例子。當被要求從零開始構建一個 Linux 風格的桌面網頁應用程式時,它能夠持續不斷地評估自身產出的結果,逐步加入檔案瀏覽器、終端機和系統監控等功能。這段過程持續了整整八個小時。最終交付的是一個視覺一致且功能完整的系統,完全不需要人類提供任何設計稿或中途指引。在優化向量資料庫的測試中,它更是執行了超過 600 次的迭代與 6000 多次的工具呼叫,展現出極高的穩定度。
它在 SWE-Bench Pro 與 Terminal-Bench 2.0 等高難度評測中也取得了頂尖的成績。更棒的是,這款模型已經採用 MIT 授權完全開源。開發者們現在就可以前往HuggingFace 下載並探索它的潛力,將其整合到各種自動化程式設計流程中。
我們正在見證 AI 從「單次問答工具」向「長時間自主工作的虛擬員工」轉變。GLM-5.1 證明了只要給予足夠的運算與迭代空間,AI 能夠自我修正並完成極度複雜的工程系統。未來人類開發者的核心技能,將從「如何寫好單次提示詞(Prompt)」轉變為「如何佈署、管理與評估自主 AI 代理(Agent)的長期工作軌跡」。
Cognition 發布 SWE-1.6:超高生成速度與極致的模型使用者體驗
如果曾使用過 AI 開發工具,可能會遇過模型過度思考、陷入無限迴圈,或是堅持使用低效指令的情況。Cognition 最新推出的 SWE-1.6 正是為了解決這些痛點而生。開發團隊將焦點放在「模型使用者體驗」上,大幅減少了不必要的冗長推理。
這款模型現在更傾向於平行呼叫工具,並且減少了對終端機介面的過度依賴。這意味著它能更快獲取所需資訊,減少使用者的等待時間與手動干預。模型不再輕易卡在相同的推論邏輯中打轉,整體的運作軌跡變得更加精簡俐落。
除了體驗上的升級,生成速度也達到了業界頂尖的水準。在 Windsurf 平台中,透過與 Cerebras 的合作,付費用戶能夠體驗到每秒高達 950 個 token 的驚人速度。此外,SWE-1.6 目前已在 Windsurf 平台全面上線,並且在接下來的三個月內,平台透過 Fireworks 提供了每秒 200 個 token 的免費存取權限供大眾使用。
模型的能力與智商固然重要,但「模型使用者體驗(Model UX)」才是決定開發者是否願意在日常工作中持續使用的關鍵。減少無限迴圈與過度思考、增強平行處理能力,讓 AI 代理的行為不再像個笨重的機器,而更像一個高效率的人類工程師。對於工具開發者而言,降低 AI 互動摩擦力、提升流暢度,已成為下一個決定勝負的戰場。
微軟開源 Harrier 嵌入模型:打造強大 Agent 基礎
在探討強大的 AI 代理時,精準的資訊檢索總是不可或缺的基石。微軟剛剛開源了 Microsoft Open-Sources Industry-Leading Embedding Model 中提到的 Harrier 系列嵌入模型。這項技術專為現代代理系統的需求量身打造,並在多語系 MTEB-v2 評測中擊敗眾多對手,奪下榜首。
Harrier 的開發過程結合了大規模對比預訓練與合成資料生成技術。開發團隊利用 GPT-5 生成了數十億筆多語系文本配對,並透過知識蒸餾技術將大型教師模型的能力轉移到更小、更高效的模型上。它支援超過 100 種語言,並具備 32k 的上下文窗口。這不僅提升了首次檢索的準確性,也降低了系統的延遲與成本。
對於需要跨越不同資料來源、維持記憶並處理多步驟上下文的應用場景來說,這是一個相當實用的進展。有興趣的開發者可以直接在 HuggingFace 頁面 找到模型權重與相關資源。
當大眾把目光焦點放在能說會道的生成式大型語言模型時,微軟提醒了我們:精準的「記憶、檢索與關聯」才是 AI 代理(Agent)能夠在現實環境中穩定運作、不出錯的底層基石。在建構企業級 AI 應用時,與其一味追求參數更大的生成模型,不如投資並優化一個強大且支援多語系的嵌入模型(Embedding Model),這才是降低 AI 幻覺、提升應用穩定度的根本之道。
總結來說,從防範未然的資安佈局,到能連續作戰的程式代理,再到支援強大檢索的底層模型,各項技術均展現了多元的發展面貌。每一項創新都在解決實際存在的問題,同時也為未來的開發環境描繪出更清晰的輪廓。
問與答
關於 Anthropic 與 Claude Mythos Preview
Q1:為什麼 Anthropic 開發出如此強大的 Claude Mythos Preview,卻決定不向一般大眾開放? A1: 因為該模型在網路安全領域的能力出現了驚人的躍進,甚至達到可能被武器化的程度。它能夠完全自主地發現並利用各大作業系統與瀏覽器中的零日漏洞(例如 OpenBSD 中潛伏 27 年的漏洞,以及 FreeBSD 的遠端程式碼執行漏洞)。考量到這些強大能力若落入惡意攻擊者手中將對全球網路與國家安全造成嚴重威脅,Anthropic 決定將其嚴格限制於防禦用途。為此,他們啟動了 Project Glasswing,與微軟、Google、Apple 等科技巨頭合作,專注於利用該模型來修補全球關鍵基礎設施的安全漏洞。
關於 Z.ai 與 GLM-5.1
Q2:Z.ai 推出的 GLM-5.1 和市面上其他 AI 程式編輯模型最大的差異在哪裡? A2: GLM-5.1 最大的突破在於解決了「長線工程任務(Long-Horizon Tasks)」的瓶頸。過去的模型往往在進行幾十次對話或修改後就會開始原地踏步、失去方向,但 GLM-5.1 能夠在數百甚至上千次的迭代中保持高效的優化能力。例如,它能在長達 8 小時的自主運作中,從零開始建構出一個包含檔案瀏覽器與終端機的網頁版 Linux 桌面環境,或者在優化向量資料庫時,自主執行超過 600 次迭代與 6000 多次工具呼叫。
關於 Cognition 與 SWE-1.6
Q3:Cognition 的 SWE-1.6 解決了 AI 開發工具的哪些常見痛點?一般開發者可以免費體驗嗎? A3: SWE-1.6 這次不只追求聰明,更把焦點放在優化「模型使用者體驗(Model UX)」上。它大幅減少了過去 AI 代理常見的不良行為,例如:遇到簡單問題卻過度思考、陷入無限迴圈(原地打轉),以及過度依賴終端機介面等。現在的模型更懂得平行呼叫多個工具,讓運作軌跡更精簡快速。 關於費用方面,SWE-1.6 目前已在 Windsurf 平台全面上線,並且在接下來的三個月內,平台透過 Fireworks 提供每秒 200 個 token 的免費存取權限供大眾使用,付費用戶則可透過 Cerebras 體驗高達每秒 950 個 token 的極致速度。
關於 微軟與 Harrier 嵌入模型
Q4:大家都在關注能聊天的生成式 AI,微軟開源的 Harrier「嵌入模型(Embedding Model)」為什麼同樣重要?對 AI Agent 有何幫助? A4: 嵌入模型是 AI 系統用來「搜尋、檢索、組織與連結資訊」的底層基礎。在現代 AI Agent(代理)的應用中,Agent 必須要在多個步驟中跨資料來源搜尋、維持長期記憶並更新上下文。Harrier 正是為此而生,它支援超過 100 種語言、具備 32k 的上下文窗口,並在多語系 MTEB-v2 評測中奪冠。這意味著它能提供更高準確度的首次檢索、更低的系統延遲與成本,讓 AI Agent 在執行複雜任務時不再容易「失憶」或產生幻覺。
綜合反思
Q5:從這四項技術進展來看,目前 AI 發展的共同大趨勢是什麼? A5: 共同趨勢是 AI 正從「單次問答的對話工具」全面轉化為「能長時間自主運作的代理系統(Agentic Systems)」。 無論是能夠自主掃描與利用漏洞的 Claude Mythos Preview、持續迭代 8 小時編寫系統的 GLM-5.1、致力於讓工具呼叫軌跡更流暢的 SWE-1.6,還是強化 Agent 記憶與檢索底層的 Harrier 模型,都顯示業界正全力打造能夠在真實環境中獨立、穩定且長時間執行複雜任務的「虛擬員工」。這也意味著,人類與 AI 的協作模式將從「下指令」轉變為「指派任務並進行監督」。


