GLM-4.6 全新登场:挑战 Claude Sonnet,代码与推理能力再进化
智谱 AI (Zhipu AI) 正式推出最新旗舰模型 GLM-4.6,不仅将上下文窗口扩展至 20 万 token,更在代码生成、复杂推理及智慧体(Agent)能力上展现惊人跃进。本文将深入解析其性能评测、与 Claude Sonnet 4 等顶尖模型的对比,以及如何立即开始使用 GLM-4.6。
就在大家还在热烈讨论各大语言模型的功能时,智谱 AI 悄悄地投下了一颗震撼弹——正式发表了他们的最新旗舰模型:GLM-4.6。这次的更新可不是小打小闹,而是对前代 GLM-4.5 的一次全面升级,特别是在处理复杂任务和代码生成方面,展现出与业界顶尖模型一较高下的强大实力。
那么,这个新版本到底强在哪里?它在激烈的 AI 竞争中又处于什么样的位置?让我们一起来看看。
五大核心升级:GLM-4.6 有何不同?
相较于 GLM-4.5,这次的 GLM-4.6 带来了几个关键性的突破,这些改进直接影响了它在真实世界应用中的表现。
更长的上下文视窗 (Longer Context Window) 从原本的 128K token 一口气扩展到 200K token。这意味着什么?简单来说,模型现在能“记住”更多资讯,一次性处理更长的文件、代码库或对话纪录。对于需要深度理解上下文的复杂智慧体任务来说,这项升级至关重要。
更强的代码能力 (Superior Coding Performance) 无论是标准的代码基准测试,还是在 Claude Code、Cline、Kilo Code 等真实开发工具中的应用,GLM-4.6 的分数和实际表现都更上一层楼。特别值得一提的是,它在生成视觉上精美的网页前端介面方面,有了明显的改善。
进阶的推理能力 (Advanced Reasoning) GLM-4.6 在推理性能上展现了清晰的进步。它现在支援在推理过程中呼叫外部工具 (Tool Use),这让它解决问题的能力变得更全面、更强大。
更强大的智慧体 (More Capable Agents) 凭借着更强的工具使用和搜寻能力,GLM-4.6 能更有效地整合到各种智慧体框架中,执行多步骤的复杂任务。
更精炼的写作风格 (Refined Writing) 模型在生成内容时,风格和可读性更贴近人类的偏好。尤其在角色扮演(Role-playing)等需要细腻情感表达的场景中,表现得更加自然。
性能对决:GLM-4.6 在基准测试中的表现如何?
空口无凭,数据才是硬道理。智谱 AI 在八个涵盖智慧体、推理和代码能力的公开基准测试中,对 GLM-4.6 进行了全面评估。
评估说明: 以下分数是在 8 个基准测试 (AIME 25, GPQA, LiveCodeBench v6, HLE, BrowseComp, SWE-bench Verified, Terminal-Bench, T²-Bench) 上,于 128K 上下文长度下评估的结果。
| 基准测试 (Benchmark) | GLM-4.6 | GLM-4.5 | DeepSeek-V3.2-Exp | Claude Sonnet 4 | Claude Sonnet 4.5 |
|---|---|---|---|---|---|
| AIME 25 | 93.9 | 89.3 | 85.4 | 74.3 | 87.0 |
| GPQA | 81.0 | 79.9 | 79.9 | 77.7 | 83.4 |
| LiveCodeBench v6 | 82.8 | 63.3 | 57.7 | 48.9 | 70.1 |
| HLE | 30.4 | 14.4 | 17.2 | 9.6 | 19.8 |
| BrowseComp | 45.1 | 26.4 | 14.7 | 19.6 | 40.1 |
| SWE-bench Verified | 68.0 | 64.2 | 67.8 | 72.5 | 77.2 |
| Terminal-Bench | 40.5 | 37.5 | 35.5 | 37.7 | 50.0 |
| T²-Bench (Weighted) | 75.9 | 67.5 | 53.4 | 66.0 | 88.1 |
从上方的图表可以清楚看到,蓝色长条代表的 GLM-4.6,在 AIME 25、GPQA、BrowseComp 等多项测试中,其表现都明显优于绿色长条的 GLM-4.5。
更有趣的是,它与业界领先模型的对比。GLM-4.6 在许多项目上都展现出与 DeepSeek-V3.2-Exp 和 Claude Sonnet 4 不相上下的竞争力。不过,俗话说「一山还有一山高」,在代码能力方面,它与目前顶尖的 Claude Sonnet 4.5 相比,仍有些许差距。这也显示了 AI 技术的发展速度之快,竞争相当激烈。
不只看跑分:真实世界中的代码实战
排行榜上的分数固然重要,但模型在真实开发场景中的「手感」如何,才是开发者最关心的。
为此,智谱 AI 扩展了他们的 CC-Bench 测试平台。在这个测试中,人类评估员会在一个独立的 Docker 环境中,与 AI 模型进行多轮互动,完成涵盖前端开发、工具建构、数据分析、软体测试和演算法设计等真实世界的任务。
| 比较对象 (GLM-4.6 vs) | 胜 (Win) | 平 (Tie) | 负 (Lose) |
|---|---|---|---|
| Claude Sonnet 4 | 48.6% | 9.5% | 41.9% |
| GLM-4.5 | 50.0% | 13.5% | 36.5% |
| Kimi-K2-0905 | 56.8% | 28.3% | 14.9% |
| DeepSeek-V3.1-Terminus | 64.9% | 8.1% | 27.0% |
结果相当亮眼:
- 与 Claude Sonnet 4 旗鼓相当: GLM-4.6 的胜率达到 48.6%,几乎与 Claude Sonnet 4 打成平手。
- 超越其他开源模型: 它明显优于 GLM-4.5、Kimi-K2-0905 和 DeepSeek-V3.1-Terminus 等其他模型。
更重要的是效率。从 token 使用效率来看,GLM-4.6 完成相同任务所需的 token 数量比 GLM-4.5 少了约 15%。这意味着它不只变得更强,也变得更经济实惠。所有评估细节和数据都已在 Hugging Face 上公开,供社群进一步研究。
如何开始使用 GLM-4.6?
看到这里,你是不是已经迫不及待想亲手试试看了?目前有多种方式可以让你体验 GLM-4.6 的强大功能:
透过 Z.ai API 平台呼叫 开发者可以在 Z.ai 的 API 平台上直接呼叫 GLM-4.6 模型。详细的 API 文件和整合指南,可以参考官方文件。此外,也可以透过 OpenRouter 平台来存取。
在代码智慧体中使用 GLM-4.6 现已支援多款主流的代码智慧体工具,例如 Claude Code、Kilo Code、Roo Code 等。
- 对于 GLM Coding Plan 订阅者: 系统会自动为你升级。如果你曾自订过设定档(如
~/.claude/settings.json),只需将模型名称改为"glm-4.6"即可完成升级。 - 对于新用户: GLM Coding Plan 提供了极具吸引力的价格,能以七分之一的价格获得三倍于 Claude 的使用额度。现在就去订阅吧!
- 对于 GLM Coding Plan 订阅者: 系统会自动为你升级。如果你曾自订过设定档(如
在 Z.ai 网站上聊天 最简单直接的方式,就是前往 Z.ai 网站,在模型选项中选择 GLM-4.6,就可以直接与它进行对话。
在本地端部署 对于希望在自己机器上运行的用户,GLM-4.6 的模型权重即将在 HuggingFace 和 ModelScope 上提供。它支援 vLLM 和 SGLang 等主流的推理框架,详细的部署说明可以在其 官方 GitHub 储存库中找到。
总结来说,GLM-4.6 的推出,无疑是为 AI 开发者和使用者提供了一个极具竞争力的新选择。它不仅在性能上追赶顶尖模型,更在真实应用场景和使用效率上展现了巨大的价值。AI 模型的军备竞赛还在继续,而 GLM-4.6 无疑是这场竞赛中一位不容忽视的强力选手。


