GLM-4.6 全新登场:挑战 Claude Sonnet,代码与推理能力再进化

智谱 AI (Zhipu AI) 正式推出最新旗舰模型 GLM-4.6,不仅将上下文窗口扩展至 20 万 token,更在代码生成、复杂推理及智慧体(Agent)能力上展现惊人跃进。本文将深入解析其性能评测、与 Claude Sonnet 4 等顶尖模型的对比,以及如何立即开始使用 GLM-4.6。


就在大家还在热烈讨论各大语言模型的功能时,智谱 AI 悄悄地投下了一颗震撼弹——正式发表了他们的最新旗舰模型:GLM-4.6。这次的更新可不是小打小闹,而是对前代 GLM-4.5 的一次全面升级,特别是在处理复杂任务和代码生成方面,展现出与业界顶尖模型一较高下的强大实力。

那么,这个新版本到底强在哪里?它在激烈的 AI 竞争中又处于什么样的位置?让我们一起来看看。

五大核心升级:GLM-4.6 有何不同?

相较于 GLM-4.5,这次的 GLM-4.6 带来了几个关键性的突破,这些改进直接影响了它在真实世界应用中的表现。

  1. 更长的上下文视窗 (Longer Context Window) 从原本的 128K token 一口气扩展到 200K token。这意味着什么?简单来说,模型现在能“记住”更多资讯,一次性处理更长的文件、代码库或对话纪录。对于需要深度理解上下文的复杂智慧体任务来说,这项升级至关重要。

  2. 更强的代码能力 (Superior Coding Performance) 无论是标准的代码基准测试,还是在 Claude Code、Cline、Kilo Code 等真实开发工具中的应用,GLM-4.6 的分数和实际表现都更上一层楼。特别值得一提的是,它在生成视觉上精美的网页前端介面方面,有了明显的改善。

  3. 进阶的推理能力 (Advanced Reasoning) GLM-4.6 在推理性能上展现了清晰的进步。它现在支援在推理过程中呼叫外部工具 (Tool Use),这让它解决问题的能力变得更全面、更强大。

  4. 更强大的智慧体 (More Capable Agents) 凭借着更强的工具使用和搜寻能力,GLM-4.6 能更有效地整合到各种智慧体框架中,执行多步骤的复杂任务。

  5. 更精炼的写作风格 (Refined Writing) 模型在生成内容时,风格和可读性更贴近人类的偏好。尤其在角色扮演(Role-playing)等需要细腻情感表达的场景中,表现得更加自然。

性能对决:GLM-4.6 在基准测试中的表现如何?

空口无凭,数据才是硬道理。智谱 AI 在八个涵盖智慧体、推理和代码能力的公开基准测试中,对 GLM-4.6 进行了全面评估。

评估说明: 以下分数是在 8 个基准测试 (AIME 25, GPQA, LiveCodeBench v6, HLE, BrowseComp, SWE-bench Verified, Terminal-Bench, T²-Bench) 上,于 128K 上下文长度下评估的结果。

基准测试 (Benchmark)GLM-4.6GLM-4.5DeepSeek-V3.2-ExpClaude Sonnet 4Claude Sonnet 4.5
AIME 2593.989.385.474.387.0
GPQA81.079.979.977.783.4
LiveCodeBench v682.863.357.748.970.1
HLE30.414.417.29.619.8
BrowseComp45.126.414.719.640.1
SWE-bench Verified68.064.267.872.577.2
Terminal-Bench40.537.535.537.750.0
T²-Bench (Weighted)75.967.553.466.088.1

从上方的图表可以清楚看到,蓝色长条代表的 GLM-4.6,在 AIME 25、GPQA、BrowseComp 等多项测试中,其表现都明显优于绿色长条的 GLM-4.5。

更有趣的是,它与业界领先模型的对比。GLM-4.6 在许多项目上都展现出与 DeepSeek-V3.2-Exp 和 Claude Sonnet 4 不相上下的竞争力。不过,俗话说「一山还有一山高」,在代码能力方面,它与目前顶尖的 Claude Sonnet 4.5 相比,仍有些许差距。这也显示了 AI 技术的发展速度之快,竞争相当激烈。

不只看跑分:真实世界中的代码实战

排行榜上的分数固然重要,但模型在真实开发场景中的「手感」如何,才是开发者最关心的。

为此,智谱 AI 扩展了他们的 CC-Bench 测试平台。在这个测试中,人类评估员会在一个独立的 Docker 环境中,与 AI 模型进行多轮互动,完成涵盖前端开发、工具建构、数据分析、软体测试和演算法设计等真实世界的任务。

比较对象 (GLM-4.6 vs)胜 (Win)平 (Tie)负 (Lose)
Claude Sonnet 448.6%9.5%41.9%
GLM-4.550.0%13.5%36.5%
Kimi-K2-090556.8%28.3%14.9%
DeepSeek-V3.1-Terminus64.9%8.1%27.0%

结果相当亮眼:

  • 与 Claude Sonnet 4 旗鼓相当: GLM-4.6 的胜率达到 48.6%,几乎与 Claude Sonnet 4 打成平手。
  • 超越其他开源模型: 它明显优于 GLM-4.5、Kimi-K2-0905 和 DeepSeek-V3.1-Terminus 等其他模型。

更重要的是效率。从 token 使用效率来看,GLM-4.6 完成相同任务所需的 token 数量比 GLM-4.5 少了约 15%。这意味着它不只变得更强,也变得更经济实惠。所有评估细节和数据都已在 Hugging Face 上公开,供社群进一步研究。

如何开始使用 GLM-4.6?

看到这里,你是不是已经迫不及待想亲手试试看了?目前有多种方式可以让你体验 GLM-4.6 的强大功能:

  • 透过 Z.ai API 平台呼叫 开发者可以在 Z.ai 的 API 平台上直接呼叫 GLM-4.6 模型。详细的 API 文件和整合指南,可以参考官方文件。此外,也可以透过 OpenRouter 平台来存取。

  • 在代码智慧体中使用 GLM-4.6 现已支援多款主流的代码智慧体工具,例如 Claude Code、Kilo Code、Roo Code 等。

    • 对于 GLM Coding Plan 订阅者: 系统会自动为你升级。如果你曾自订过设定档(如 ~/.claude/settings.json),只需将模型名称改为 "glm-4.6" 即可完成升级。
    • 对于新用户: GLM Coding Plan 提供了极具吸引力的价格,能以七分之一的价格获得三倍于 Claude 的使用额度。现在就去订阅吧!
  • 在 Z.ai 网站上聊天 最简单直接的方式,就是前往 Z.ai 网站,在模型选项中选择 GLM-4.6,就可以直接与它进行对话。

  • 在本地端部署 对于希望在自己机器上运行的用户,GLM-4.6 的模型权重即将在 HuggingFace 和 ModelScope 上提供。它支援 vLLM 和 SGLang 等主流的推理框架,详细的部署说明可以在其 官方 GitHub 储存库中找到。

总结来说,GLM-4.6 的推出,无疑是为 AI 开发者和使用者提供了一个极具竞争力的新选择。它不仅在性能上追赶顶尖模型,更在真实应用场景和使用效率上展现了巨大的价值。AI 模型的军备竞赛还在继续,而 GLM-4.6 无疑是这场竞赛中一位不容忽视的强力选手。

分享到:

© 2025 Communeify. All rights reserved.