GLM-4.6 全新登场：挑战 Claude Sonnet，代码与推理能力再进化

发布于: 2025-09-30 • 更新于: 2025-09-30 • 2 分钟阅读

智谱 AI (Zhipu AI) 正式推出最新旗舰模型 GLM-4.6，不仅将上下文窗口扩展至 20 万 token，更在代码生成、复杂推理及智慧体（Agent）能力上展现惊人跃进。本文将深入解析其性能评测、与 Claude Sonnet 4 等顶尖模型的对比，以及如何立即开始使用 GLM-4.6。

就在大家还在热烈讨论各大语言模型的功能时，智谱 AI 悄悄地投下了一颗震撼弹——正式发表了他们的最新旗舰模型：GLM-4.6。这次的更新可不是小打小闹，而是对前代 GLM-4.5 的一次全面升级，特别是在处理复杂任务和代码生成方面，展现出与业界顶尖模型一较高下的强大实力。

那么，这个新版本到底强在哪里？它在激烈的 AI 竞争中又处于什么样的位置？让我们一起来看看。

五大核心升级：GLM-4.6 有何不同？

相较于 GLM-4.5，这次的 GLM-4.6 带来了几个关键性的突破，这些改进直接影响了它在真实世界应用中的表现。

更长的上下文视窗 (Longer Context Window) 从原本的 128K token 一口气扩展到 200K token。这意味着什么？简单来说，模型现在能“记住”更多资讯，一次性处理更长的文件、代码库或对话纪录。对于需要深度理解上下文的复杂智慧体任务来说，这项升级至关重要。
更强的代码能力 (Superior Coding Performance) 无论是标准的代码基准测试，还是在 Claude Code、Cline、Kilo Code 等真实开发工具中的应用，GLM-4.6 的分数和实际表现都更上一层楼。特别值得一提的是，它在生成视觉上精美的网页前端介面方面，有了明显的改善。
进阶的推理能力 (Advanced Reasoning) GLM-4.6 在推理性能上展现了清晰的进步。它现在支援在推理过程中呼叫外部工具 (Tool Use)，这让它解决问题的能力变得更全面、更强大。
更强大的智慧体 (More Capable Agents) 凭借着更强的工具使用和搜寻能力，GLM-4.6 能更有效地整合到各种智慧体框架中，执行多步骤的复杂任务。
更精炼的写作风格 (Refined Writing) 模型在生成内容时，风格和可读性更贴近人类的偏好。尤其在角色扮演（Role-playing）等需要细腻情感表达的场景中，表现得更加自然。

性能对决：GLM-4.6 在基准测试中的表现如何？

空口无凭，数据才是硬道理。智谱 AI 在八个涵盖智慧体、推理和代码能力的公开基准测试中，对 GLM-4.6 进行了全面评估。

评估说明： 以下分数是在 8 个基准测试 (AIME 25, GPQA, LiveCodeBench v6, HLE, BrowseComp, SWE-bench Verified, Terminal-Bench, T²-Bench) 上，于 128K 上下文长度下评估的结果。

基准测试 (Benchmark)	GLM-4.6	GLM-4.5	DeepSeek-V3.2-Exp	Claude Sonnet 4	Claude Sonnet 4.5
AIME 25	93.9	89.3	85.4	74.3	87.0
GPQA	81.0	79.9	79.9	77.7	83.4
LiveCodeBench v6	82.8	63.3	57.7	48.9	70.1
HLE	30.4	14.4	17.2	9.6	19.8
BrowseComp	45.1	26.4	14.7	19.6	40.1
SWE-bench Verified	68.0	64.2	67.8	72.5	77.2
Terminal-Bench	40.5	37.5	35.5	37.7	50.0
T²-Bench (Weighted)	75.9	67.5	53.4	66.0	88.1

从上方的图表可以清楚看到，蓝色长条代表的 GLM-4.6，在 AIME 25、GPQA、BrowseComp 等多项测试中，其表现都明显优于绿色长条的 GLM-4.5。

更有趣的是，它与业界领先模型的对比。GLM-4.6 在许多项目上都展现出与 DeepSeek-V3.2-Exp 和 Claude Sonnet 4 不相上下的竞争力。不过，俗话说「一山还有一山高」，在代码能力方面，它与目前顶尖的 Claude Sonnet 4.5 相比，仍有些许差距。这也显示了 AI 技术的发展速度之快，竞争相当激烈。

不只看跑分：真实世界中的代码实战

排行榜上的分数固然重要，但模型在真实开发场景中的「手感」如何，才是开发者最关心的。

为此，智谱 AI 扩展了他们的 CC-Bench 测试平台。在这个测试中，人类评估员会在一个独立的 Docker 环境中，与 AI 模型进行多轮互动，完成涵盖前端开发、工具建构、数据分析、软体测试和演算法设计等真实世界的任务。

比较对象 (GLM-4.6 vs)	胜 (Win)	平 (Tie)	负 (Lose)
Claude Sonnet 4	48.6%	9.5%	41.9%
GLM-4.5	50.0%	13.5%	36.5%
Kimi-K2-0905	56.8%	28.3%	14.9%
DeepSeek-V3.1-Terminus	64.9%	8.1%	27.0%

结果相当亮眼：

与 Claude Sonnet 4 旗鼓相当： GLM-4.6 的胜率达到 48.6%，几乎与 Claude Sonnet 4 打成平手。
超越其他开源模型： 它明显优于 GLM-4.5、Kimi-K2-0905 和 DeepSeek-V3.1-Terminus 等其他模型。

更重要的是效率。从 token 使用效率来看，GLM-4.6 完成相同任务所需的 token 数量比 GLM-4.5 少了约 15%。这意味着它不只变得更强，也变得更经济实惠。所有评估细节和数据都已在 Hugging Face 上公开，供社群进一步研究。

如何开始使用 GLM-4.6？

看到这里，你是不是已经迫不及待想亲手试试看了？目前有多种方式可以让你体验 GLM-4.6 的强大功能：

透过 Z.ai API 平台呼叫 开发者可以在 Z.ai 的 API 平台上直接呼叫 GLM-4.6 模型。详细的 API 文件和整合指南，可以参考官方文件。此外，也可以透过 OpenRouter 平台来存取。
在代码智慧体中使用 GLM-4.6 现已支援多款主流的代码智慧体工具，例如 Claude Code、Kilo Code、Roo Code 等。
- 对于 GLM Coding Plan 订阅者： 系统会自动为你升级。如果你曾自订过设定档（如 ~/.claude/settings.json），只需将模型名称改为 "glm-4.6" 即可完成升级。
- 对于新用户： GLM Coding Plan 提供了极具吸引力的价格，能以七分之一的价格获得三倍于 Claude 的使用额度。现在就去订阅吧！
在 Z.ai 网站上聊天 最简单直接的方式，就是前往 Z.ai 网站，在模型选项中选择 GLM-4.6，就可以直接与它进行对话。
在本地端部署 对于希望在自己机器上运行的用户，GLM-4.6 的模型权重即将在 HuggingFace 和 ModelScope 上提供。它支援 vLLM 和 SGLang 等主流的推理框架，详细的部署说明可以在其官方 GitHub 储存库中找到。