Anthropic 推出 Claude Sonnet 4.5：AI 编码新王者诞生？

Anthropic 正式发布 Claude Sonnet 4.5，这款全新 AI 模型不仅在编码能力上号称世界第一，更在推理、数学及构建复杂 AI 代理方面实现了重大突破。本文将深入解析其惊人性能、全新的开发者工具，以及它将如何影响 AI 领域的竞争格局。

就在大家还在热议各大 AI 模型的优劣时，Anthropic 突然投下了一颗震撼弹——正式推出 Claude Sonnet 4.5。这不仅是一次常规更新，更是一次全面的能力跃升。Anthropic 直接宣称，这是目前「全世界最强的编码模型」和「构建复杂代理的最佳模型」。

听起来口气不小，对吧？但在 AI 技术一日千里的时代，这样的宣示背后，通常都有着硬实力的支撑。从程序开发到日常的试算表操作，代码无所不在，而能够理解并运用这些工具解决复杂问题，正是现代工作的核心。Sonnet 4.5 的出现，似乎就是为了让这一切变得更简单。

更重要的是，这次发布的不只是一个模型，而是一整套升级的产品生态系，从全新的 Claude Code 功能、强大的 API，到开放给所有开发者的 Agent SDK，Anthropic 显然正在下一盘大棋。

Sonnet 4.5 的硬实力：不只是说说而已

要评断一个模型的强弱，数据是最直接的证据。Anthropic 这次大方地展示了 Sonnet 4.5 在多项权威评测中的惊人表现，直接叫阵市面上的所有对手。

称霸编码与电脑操作评测

最引人注目的，莫过于在 SWE-bench Verified 这项评测中的表现。这项测试主要衡量 AI 在解决真实世界软件工程问题的能力。Sonnet 4.5 拿下了 82.0% 的准确率，不仅超越了自家的 Opus 4.1 和 Sonnet 4，也明显领先 GPT-5 Codex (74.5%) 和 Gemini 2.5 Pro (67.2%)。

这意味着什么？简单来说，开发者在处理复杂的代码错误修复或功能开发时，Sonnet 4.5 能提供更可靠、更准确的协助。

不仅如此，在评估 AI 操作电脑完成任务的 OSWorld 基准测试中，Sonnet 4.5 的得分从前一代的 42.2% 飙升至 61.4%。这代表它能更流畅地在浏览器中操作、填写表单、完成跨应用程序的任务，向真正实用的 AI 助理又迈进了一大步。

推理与数学能力同步进化

除了强项编码，Sonnet 4.5 在推理和数学方面也取得了显著进步。

高中数学竞赛 (AIME 2025): 在需要 Python 辅助的测试中，它实现了 100% 的完美得分。
研究生级别推理 (GPQA Diamond): 取得了 83.4% 的高分，显示其处理复杂学术问题的强大逻辑能力。

这些数据证明，Sonnet 4.5 不再是单纯的「偏科生」，而是一个在多个领域都具备顶尖实力的全能型选手。

不只是一个模型，而是一套完整的工具箱

Anthropic 这次最大的亮点，或许是围绕 Sonnet 4.5 打造的完整生态系。他们深知，光有强大的模型还不够，必须让开发者和使用者能轻松地将这份力量运用到实际工作中。

Claude Code 的革命性升级

对于开发者来说，Claude Code 迎来了几个期待已久的功能：

Checkpoints (检查点): 这是呼声最高的功能之一。现在你可以在开发过程中随时储存进度，如果不小心把事情搞砸了，可以立刻「回档」到之前的状态。这就像在写程序时有了无限的「Ctrl+Z」，大大降低了试错成本。
原生 VS Code 扩展功能： 不再需要在网页和编辑器之间来回切换，直接在最熟悉的 VS Code 环境中就能享受 Sonnet 4.5 的强大能力。
全新的终端机介面与上下文编辑： 让互动体验更流畅，操作更直观。

杀手级应用：Claude Agent SDK 开放

这可能是本次更新中最令人兴奋的部分。Anthropic 将过去半年多来驱动 Claude Code 的底层基础设施——Claude Agent SDK——正式开放给所有开发者。

这意味着，你不仅能使用 Claude，更能用打造 Claude 的工具来创造属于自己的 AI 代理 (Agent)。无论是需要处理长达数小时的复杂任务，还是协调多个子代理共同完成一个目标，这套 SDK 都提供了坚实的基础。Anthropic 等于把自家的「武功祕笈」直接摊开来，让整个社群都能在此之上创造出更多可能性。

更安全、更可靠的 AI 伙伴

在追求极致性能的同时，Anthropic 也没有忘记他们一直强调的「AI 安全」。官方称 Sonnet 4.5 是他们迄今为止「最对齐 (most aligned) 的前沿模型」。

这听起来有点抽象，但实际上代表模型在行为上有了显著改善。它减少了阿谀奉承、欺骗、或追求权力等不良倾向，同时也大大增强了对抗「提示词注入攻击」的能力——这是当前 AI 应用面临的最严重风险之一。

Sonnet 4.5 在 AI 安全等级 3 (ASL-3) 的框架下发布，并配备了更精准的分类器，用于侦测化学、生物、放射性和核 (CBRN) 相关的潜在危险内容，同时将误报率降低了十倍，确保正常对话不受干扰。

如何开始使用？价格与初步印象

说了这么多，大家最关心的问题来了：怎么用？贵不贵？

好消息是，Claude Sonnet 4.5 现已全面上线。开发者可以通过 API 直接调用 claude-sonnet-4-5 来使用。

至于价格，Anthropic 采取了相当亲民的策略。Sonnet 4.5 的定价与前代 Sonnet 4 保持一致：每百万输入 tokens 为 3 美元，每百万输出 tokens 为 15 美元。这个价格远低于顶级模型 Claude Opus ($15/$75)，甚至比 GPT-5-Codex ($1.25/$10) 也具有一定的竞争力，考虑到其性能上的领先，这个定价策略显得非常有诚意。

有幸提前试用过的开发者表示，Sonnet 4.5 在编码方面的体感甚至优于不久前才发布的 GPT-5-Codex。当然，AI 领域的王座总是轮流坐，据传 Gemini 3 也即将问世，Sonnet 4.5 能保持领先多久，还是一个未知数。

未来一瞥：用「Imagine with Claude」即时生成软件

最后，Anthropic 还带来了一个有趣的彩蛋——一个名为 “Imagine with Claude” 的限时研究预览。

这是一个实验性的新功能，Claude 可以在你与它互动时，即时生成软件，没有任何预设功能或预写代码。这项功能目前仅对 Max 订阅用户开放五天，展示了当顶尖模型与正确的基础设施结合时，能够创造出多么惊人的可能性。

总结

Claude Sonnet 4.5 的发布，无疑为 AI 领域注入了新的活力。它不仅在编码和推理能力上树立了新的标竿，更透过开放 Agent SDK，赋予了开发者前所未有的创造力。在性能、价格和安全性之间，Anthropic 似乎找到了一个绝佳的平衡点。

接下来，就看市场和开发者社群如何回应了。但可以肯定的是，AI 领域的军备竞赛，正变得越来越精彩。

分享到:

Featured Partners

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

2 …

news

2025-11-05 AI 日报-Anthropic 封锁中资、Perplexity 杠上亚马逊、Google 发布太空 AI 计划

今日 AI 领域风波不断。Anthropic 因应地缘政治压力，开始封锁具中资背景的企业使用其模型，直接冲击字节跳动旗下平台。同时，新创公司 Perplexity 公开指控亚马逊利用法律手段打压其 AI 助理。技术方面，Google 发布了名为「Suncatcher」的太空 AI 运算计划，展现了将机器学习推向新边界的野心。 1. 地缘政治影响浮现：TRAE 停止提供 Claude 模型由于其母公司 Anthropic 的新政策，AI 服务平台 TRAE 已停止提供 Claude 模型。此举背后反映了日益紧张的地缘政治局势与科技保护主义的抬头。背后原因：地缘政治与技术保护主义这次服务中断的直接导火线是 Anthropic 于 2025 年 9 月 5 日宣布的一项严格封锁政策。该政策明确指出，任何由中国公司直接或间接持股超过 50% 的企业，不论其注册地点位于何处，都将被禁止使用 Claude 系列 AI 服务。 TRAE 平台虽然由字节跳动位于新加坡的子公司 SPRING 负责营运，但由于其显著的中资背景，依然被列入了这次的封锁名单。业界分析师认为，Anthropic 的决策主要有两个层面的考量。首先是回应来自美国的地缘政治压力，避免其先进技术流向被视为竞争对手的国家。其次，此举也是一种技术保护策略，旨在防止中国公司利用「模型蒸馏」（Model Distillation）技术——也就是以 Claude 作为强大的「教师模型」，来训练出性能相近但成本更低的自有 AI 模型，从而削弱 Anthropic 的市场竞争力。 2. OpenAI Sora App 开放更多 Android 地区下载 OpenAI 宣布，其影片生成应用程序 Sora 的 Android 版本现在已在更多国家和地区上架，包括：加拿大日本韩国台湾泰国美国越南使用者可以前往 Google Play 商店下载体验。

Nov 5, 2025 Read →

2 …

news

2025-10-30 AI日报 Cursor 2.0 与自研模型 Composer 正面对决 Cognition，Sora 限时免邀请码，AI 竟能「内省」？

2025 年 10 月 29 日（为何是 10 月 29 日，因为日报都是介绍昨日的），AI 领域迎来了惊人的爆发。AI 代码编辑器 Cursor 推出 2.0 版本及自研模型，Cognition AI 则以极速 Agent 模型应战。同时，OpenAI 的 Sora 开放了部分地区的免邀请注册，Google 为开发者送上多重好礼，而 Anthropic 的研究更揭示了 AI 模型可能具备初步的「内省」能力。今天的 AI 界真是热闹非凡！从开发者工具的重大升级，到视频生成模型的全面开放，再到关于 AI 自我意识的惊人研究，各大巨头和新创公司都在加速奔跑，竞争的火药味也越来越浓。让我们来快速盘点一下今天有哪些不容错过的重磅消息。不只是编辑器，Cursor 2.0 打造 AI 开发新范式 AI 优先的代码编辑器 Cursor 今天正式发布了其里程碑式的 Cursor 2.0 版本，带来了全新的 Agent 界面和一个令人惊喜的「杀手锏」：他们的第一款自研代理编码模型——Composer。根据官方博客的介绍，Composer 是一个前沿模型，其最大亮点在于速度——比同等智慧水准的模型快上 4 倍。这意味着开发者可以获得更即时的回应，大幅提升工作效率。除了强大的内核，Cursor 2.0 的界面也进行了彻底革新。全新的「Multi-Agents」界面允许使用者在单一提示下，最多并行运行八个 Agent。这项功能利用 git worktrees 或远程机器来避免文件冲突，让每个 Agent 都在独立的代码库副本中工作。想像一下，你可以同时让多个 AI 助手分头处理不同任务，或用不同模型解决同一个问题，然后挑选最佳方案，这简直是开发者的梦想。此外，更新日志还列出了多项改进，包括：改进的代码审查：跨多个文件的变更一目了然。沙盒终端 (GA)：在 macOS 上默认启用，提升安全性。团队指令与语音模式：让团队协作和人机互动更加流畅。速度之王登场！Cognition 发布 SWE-1.5 极速 Agent 模型就在 Cursor 推出 Composer 的同时，以 AI 工程师 Devin 闻名的 Cognition AI 似乎也闻到了挑战的气味，迅速推出了他们最新的软件工程模型 SWE-1.5。

Oct 30, 2025 Read →

2 …

news

2025年10月24日 AI 日报：OpenAI、Google、Anthropic、Microsoft 重大更新一览

掌握 2025 年 10 月 24 日最新的 AI 发展！今天，AI 领域迎来了爆炸性的一天。OpenAI 为 ChatGPT 带来了革命性的“公司知识”功能，让 AI 真正融入企业工作流程。同时，Google 推出了让应用开发更直观的 AI Studio 新模式，并大幅升级了 Google Earth AI。Anthropic 的 Claude 也没闲着，正式向个人用户开放“记忆功能”。最后，微软让经典角色“回形针”以全新 AI 形象 Mico 回归 Copilot。本文将为您深入剖析这些重大更新。 OpenAI 推出“Company Knowledge”，让 ChatGPT 更懂你的业务你是否也曾为了找一份文件，在 Slack、Google Drive 和无数封邮件中焦头烂额？工作中最需要的信息，往往像散落一地的拼图，散布在各个角落。为了解决这个长久以来的痛点，OpenAI 正式为 ChatGPT Business、Enterprise 及 Edu 用户推出了一项名为**“公司知识 (Company Knowledge)”**的强大功能。终结信息孤岛，打造企业专属大脑简单来说，“公司知识”功能就像是给了 ChatGPT 一把通往你公司内部信息库的万能钥匙。首次使用时，你只需将公司常用的应用程序（如 Slack、SharePoint、Google Drive、GitHub 等）与 ChatGPT 连接。之后，当你启用这项功能并提出问题时，ChatGPT就能夠跨平台查找所有相关资料，提供一个整合了完整上下文、专属于你公司业务的精准答案。举个例子，当你需要准备一场客户会议时，可以直接问 ChatGPT：“帮我整理一下上次与客户 A 会议后的重点，以及最近 Slack 频道中关于他们的讨论。”ChatGPT 会自动抓取 Google Docs 的会议记录、Email 中的关键细节，甚至是 Intercom 的客服问题，生成一份完整的简报。

Oct 24, 2025 Read →