Anthropic 推出 Claude Sonnet 4.5:AI 编码新王者诞生?
Anthropic 正式发布 Claude Sonnet 4.5,这款全新 AI 模型不仅在编码能力上号称世界第一,更在推理、数学及构建复杂 AI 代理方面实现了重大突破。本文将深入解析其惊人性能、全新的开发者工具,以及它将如何影响 AI 领域的竞争格局。
就在大家还在热议各大 AI 模型的优劣时,Anthropic 突然投下了一颗震撼弹——正式推出 Claude Sonnet 4.5。这不仅是一次常规更新,更是一次全面的能力跃升。Anthropic 直接宣称,这是目前「全世界最强的编码模型」和「构建复杂代理的最佳模型」。
听起来口气不小,对吧?但在 AI 技术一日千里的时代,这样的宣示背后,通常都有着硬实力的支撑。从程序开发到日常的试算表操作,代码无所不在,而能够理解并运用这些工具解决复杂问题,正是现代工作的核心。Sonnet 4.5 的出现,似乎就是为了让这一切变得更简单。
更重要的是,这次发布的不只是一个模型,而是一整套升级的产品生态系,从全新的 Claude Code 功能、强大的 API,到开放给所有开发者的 Agent SDK,Anthropic 显然正在下一盘大棋。
Sonnet 4.5 的硬实力:不只是说说而已
要评断一个模型的强弱,数据是最直接的证据。Anthropic 这次大方地展示了 Sonnet 4.5 在多项权威评测中的惊人表现,直接叫阵市面上的所有对手。
称霸编码与电脑操作评测
最引人注目的,莫过于在 SWE-bench Verified 这项评测中的表现。这项测试主要衡量 AI 在解决真实世界软件工程问题的能力。Sonnet 4.5 拿下了 82.0% 的准确率,不仅超越了自家的 Opus 4.1 和 Sonnet 4,也明显领先 GPT-5 Codex (74.5%) 和 Gemini 2.5 Pro (67.2%)。
这意味着什么?简单来说,开发者在处理复杂的代码错误修复或功能开发时,Sonnet 4.5 能提供更可靠、更准确的协助。
不仅如此,在评估 AI 操作电脑完成任务的 OSWorld 基准测试中,Sonnet 4.5 的得分从前一代的 42.2% 飙升至 61.4%。这代表它能更流畅地在浏览器中操作、填写表单、完成跨应用程序的任务,向真正实用的 AI 助理又迈进了一大步。
推理与数学能力同步进化
除了强项编码,Sonnet 4.5 在推理和数学方面也取得了显著进步。
- 高中数学竞赛 (AIME 2025): 在需要 Python 辅助的测试中,它实现了 100% 的完美得分。
- 研究生级别推理 (GPQA Diamond): 取得了 83.4% 的高分,显示其处理复杂学术问题的强大逻辑能力。
这些数据证明,Sonnet 4.5 不再是单纯的「偏科生」,而是一个在多个领域都具备顶尖实力的全能型选手。
不只是一个模型,而是一套完整的工具箱
Anthropic 这次最大的亮点,或许是围绕 Sonnet 4.5 打造的完整生态系。他们深知,光有强大的模型还不够,必须让开发者和使用者能轻松地将这份力量运用到实际工作中。
Claude Code 的革命性升级
对于开发者来说,Claude Code 迎来了几个期待已久的功能:
- Checkpoints (检查点): 这是呼声最高的功能之一。现在你可以在开发过程中随时储存进度,如果不小心把事情搞砸了,可以立刻「回档」到之前的状态。这就像在写程序时有了无限的「Ctrl+Z」,大大降低了试错成本。
- 原生 VS Code 扩展功能: 不再需要在网页和编辑器之间来回切换,直接在最熟悉的 VS Code 环境中就能享受 Sonnet 4.5 的强大能力。
- 全新的终端机介面与上下文编辑: 让互动体验更流畅,操作更直观。
杀手级应用:Claude Agent SDK 开放
这可能是本次更新中最令人兴奋的部分。Anthropic 将过去半年多来驱动 Claude Code 的底层基础设施——Claude Agent SDK——正式开放给所有开发者。
这意味着,你不仅能使用 Claude,更能用打造 Claude 的工具来创造属于自己的 AI 代理 (Agent)。无论是需要处理长达数小时的复杂任务,还是协调多个子代理共同完成一个目标,这套 SDK 都提供了坚实的基础。Anthropic 等于把自家的「武功祕笈」直接摊开来,让整个社群都能在此之上创造出更多可能性。
更安全、更可靠的 AI 伙伴
在追求极致性能的同时,Anthropic 也没有忘记他们一直强调的「AI 安全」。官方称 Sonnet 4.5 是他们迄今为止「最对齐 (most aligned) 的前沿模型」。
这听起来有点抽象,但实际上代表模型在行为上有了显著改善。它减少了阿谀奉承、欺骗、或追求权力等不良倾向,同时也大大增强了对抗「提示词注入攻击」的能力——这是当前 AI 应用面临的最严重风险之一。
Sonnet 4.5 在 AI 安全等级 3 (ASL-3) 的框架下发布,并配备了更精准的分类器,用于侦测化学、生物、放射性和核 (CBRN) 相关的潜在危险内容,同时将误报率降低了十倍,确保正常对话不受干扰。
如何开始使用?价格与初步印象
说了这么多,大家最关心的问题来了:怎么用?贵不贵?
好消息是,Claude Sonnet 4.5 现已全面上线。开发者可以通过 API 直接调用 claude-sonnet-4-5 来使用。
至于价格,Anthropic 采取了相当亲民的策略。Sonnet 4.5 的定价与前代 Sonnet 4 保持一致:每百万输入 tokens 为 3 美元,每百万输出 tokens 为 15 美元。这个价格远低于顶级模型 Claude Opus ($15/$75),甚至比 GPT-5-Codex ($1.25/$10) 也具有一定的竞争力,考虑到其性能上的领先,这个定价策略显得非常有诚意。
有幸提前试用过的开发者表示,Sonnet 4.5 在编码方面的体感甚至优于不久前才发布的 GPT-5-Codex。当然,AI 领域的王座总是轮流坐,据传 Gemini 3 也即将问世,Sonnet 4.5 能保持领先多久,还是一个未知数。
未来一瞥:用「Imagine with Claude」即时生成软件
最后,Anthropic 还带来了一个有趣的彩蛋——一个名为 “Imagine with Claude” 的限时研究预览。
这是一个实验性的新功能,Claude 可以在你与它互动时,即时生成软件,没有任何预设功能或预写代码。这项功能目前仅对 Max 订阅用户开放五天,展示了当顶尖模型与正确的基础设施结合时,能够创造出多么惊人的可能性。
总结
Claude Sonnet 4.5 的发布,无疑为 AI 领域注入了新的活力。它不仅在编码和推理能力上树立了新的标竿,更透过开放 Agent SDK,赋予了开发者前所未有的创造力。在性能、价格和安全性之间,Anthropic 似乎找到了一个绝佳的平衡点。
接下来,就看市场和开发者社群如何回应了。但可以肯定的是,AI 领域的军备竞赛,正变得越来越精彩。


