智譜 AI (Zhipu AI) 正式推出最新旗艦模型 GLM-4.6,不僅將上下文視窗擴展至 20 萬 token,更在程式碼生成、複雜推理及智慧體(Agent)能力上展現驚人躍進。本文將深入解析其性能評測、與 Claude Sonnet 4 等頂尖模型的對比,以及如何立即開始使用 GLM-4.6。
就在大家還在熱烈討論各大語言模型的功能時,智譜 AI 悄悄地投下了一顆震撼彈——正式發表了他們的最新旗艦模型:GLM-4.6。這次的更新可不是小打小鬧,而是對前代 GLM-4.5 的一次全面升級,特別是在處理複雜任務和程式碼生成方面,展現出與業界頂尖模型一較高下的強大實力。
那麼,這個新版本到底強在哪裡?它在激烈的 AI 競爭中又處於什麼樣的位置?讓我們一起來看看。
五大核心升級:GLM-4.6 有何不同?
相較於 GLM-4.5,這次的 GLM-4.6 帶來了幾個關鍵性的突破,這些改進直接影響了它在真實世界應用中的表現。
更長的上下文視窗 (Longer Context Window) 從原本的 128K token 一口氣擴展到 200K token。這意味著什麼?簡單來說,模型現在能「記住」更多資訊,一次性處理更長的文件、程式碼庫或對話紀錄。對於需要深度理解上下文的複雜智慧體任務來說,這項升級至關重要。
更強的程式碼能力 (Superior Coding Performance) 無論是標準的程式碼基準測試,還是在 Claude Code、Cline、Kilo Code 等真實開發工具中的應用,GLM-4.6 的分數和實際表現都更上一層樓。特別值得一提的是,它在生成視覺上精美的網頁前端介面方面,有了明顯的改善。
進階的推理能力 (Advanced Reasoning) GLM-4.6 在推理性能上展現了清晰的進步。它現在支援在推理過程中呼叫外部工具 (Tool Use),這讓它解決問題的能力變得更全面、更強大。
更強大的智慧體 (More Capable Agents) 憑藉著更強的工具使用和搜尋能力,GLM-4.6 能更有效地整合到各種智慧體框架中,執行多步驟的複雜任務。
更精煉的寫作風格 (Refined Writing) 模型在生成內容時,風格和可讀性更貼近人類的偏好。尤其在角色扮演(Role-playing)等需要細膩情感表達的場景中,表現得更加自然。
性能對決:GLM-4.6 在基準測試中的表現如何?
空口無憑,數據才是硬道理。智譜 AI 在八個涵蓋智慧體、推理和程式碼能力的公開基準測試中,對 GLM-4.6 進行了全面評估。
評估說明: 以下分數是在 8 個基準測試 (AIME 25, GPQA, LiveCodeBench v6, HLE, BrowseComp, SWE-bench Verified, Terminal-Bench, T²-Bench) 上,於 128K 上下文長度下評估的結果。
| 基準測試 (Benchmark) | GLM-4.6 | GLM-4.5 | DeepSeek-V3.2-Exp | Claude Sonnet 4 | Claude Sonnet 4.5 |
|---|---|---|---|---|---|
| AIME 25 | 93.9 | 89.3 | 85.4 | 74.3 | 87.0 |
| GPQA | 81.0 | 79.9 | 79.9 | 77.7 | 83.4 |
| LiveCodeBench v6 | 82.8 | 63.3 | 57.7 | 48.9 | 70.1 |
| HLE | 30.4 | 14.4 | 17.2 | 9.6 | 19.8 |
| BrowseComp | 45.1 | 26.4 | 14.7 | 19.6 | 40.1 |
| SWE-bench Verified | 68.0 | 64.2 | 67.8 | 72.5 | 77.2 |
| Terminal-Bench | 40.5 | 37.5 | 35.5 | 37.7 | 50.0 |
| T²-Bench (Weighted) | 75.9 | 67.5 | 53.4 | 66.0 | 88.1 |
從上方的圖表可以清楚看到,藍色長條代表的 GLM-4.6,在 AIME 25、GPQA、BrowseComp 等多項測試中,其表現都明顯優於綠色長條的 GLM-4.5。
更有趣的是,它與業界領先模型的對比。GLM-4.6 在許多項目上都展現出與 DeepSeek-V3.2-Exp 和 Claude Sonnet 4 不相上下的競爭力。不過,俗話說「一山還有一山高」,在程式碼能力方面,它與目前頂尖的 Claude Sonnet 4.5 相比,仍有些許差距。這也顯示了 AI 技術的發展速度之快,競爭相當激烈。
不只看跑分:真實世界中的程式碼實戰
排行榜上的分數固然重要,但模型在真實開發場景中的「手感」如何,才是開發者最關心的。
為此,智譜 AI 擴展了他們的 CC-Bench 測試平台。在這個測試中,人類評估員會在一個獨立的 Docker 環境中,與 AI 模型進行多輪互動,完成涵蓋前端開發、工具建構、數據分析、軟體測試和演算法設計等真實世界的任務。
| 比較對象 (GLM-4.6 vs) | 勝 (Win) | 平 (Tie) | 負 (Lose) |
|---|---|---|---|
| Claude Sonnet 4 | 48.6% | 9.5% | 41.9% |
| GLM-4.5 | 50.0% | 13.5% | 36.5% |
| Kimi-K2-0905 | 56.8% | 28.3% | 14.9% |
| DeepSeek-V3.1-Terminus | 64.9% | 8.1% | 27.0% |
結果相當亮眼:
- 與 Claude Sonnet 4 旗鼓相當: GLM-4.6 的勝率達到 48.6%,幾乎與 Claude Sonnet 4 打成平手。
- 超越其他開源模型: 它明顯優於 GLM-4.5、Kimi-K2-0905 和 DeepSeek-V3.1-Terminus 等其他模型。
更重要的是效率。從 token 使用效率來看,GLM-4.6 完成相同任務所需的 token 數量比 GLM-4.5 少了約 15%。這意味著它不只變得更強,也變得更經濟實惠。所有評估細節和數據都已在 Hugging Face 上公開,供社群進一步研究。
如何開始使用 GLM-4.6?
看到這裡,你是不是已經迫不及待想親手試試看了?目前有多種方式可以讓你體驗 GLM-4.6 的強大功能:
透過 Z.ai API 平台呼叫 開發者可以在 Z.ai 的 API 平台上直接呼叫 GLM-4.6 模型。詳細的 API 文件和整合指南,可以參考官方文件。此外,也可以透過 OpenRouter 平台來存取。
在程式碼智慧體中使用 GLM-4.6 現已支援多款主流的程式碼智慧體工具,例如 Claude Code、Kilo Code、Roo Code 等。
- 對於 GLM Coding Plan 訂閱者: 系統會自動為你升級。如果你曾自訂過設定檔(如
~/.claude/settings.json),只需將模型名稱改為"glm-4.6"即可完成升級。 - 對於新用戶: GLM Coding Plan 提供了極具吸引力的價格,能以七分之一的價格獲得三倍於 Claude 的使用額度。現在就去訂閱吧!
- 對於 GLM Coding Plan 訂閱者: 系統會自動為你升級。如果你曾自訂過設定檔(如
在 Z.ai 網站上聊天 最簡單直接的方式,就是前往 Z.ai 網站,在模型選項中選擇 GLM-4.6,就可以直接與它進行對話。
在本地端部署 對於希望在自己機器上運行的用戶,GLM-4.6 的模型權重即將在 HuggingFace 和 ModelScope 上提供。它支援 vLLM 和 SGLang 等主流的推理框架,詳細的部署說明可以在其 官方 GitHub 儲存庫中找到。
總結來說,GLM-4.6 的推出,無疑是為 AI 開發者和使用者提供了一個極具競爭力的新選擇。它不僅在性能上追趕頂尖模型,更在真實應用場景和使用效率上展現了巨大的價值。AI 模型的軍備競賽還在繼續,而 GLM-4.6 無疑是這場競賽中一位不容忽視的強力選手。


