AI 智能体进化论：顶尖开发者如何为 Claude 打造高效工具？

你的 AI 智能体（Agent）是否感觉有点笨拙，无法发挥全部潜力？问题可能不在 AI 本身，而在于你给它的“工具”。本文将揭示 Anthropic 的内部心法，分享如何打造、评估并优化 AI 工具，甚至让 Claude 协助你完成这一切，让你的 AI 应用程序效能倍增。

你有没有过这种感觉？你手上有一个像 Claude 这样强大的大型语言模型（LLM），理论上它应该能自动处理复杂任务，但实际运作起来却总是有点卡卡的，不够聪明。这就像你请了一位米其林星级主厨，却只给他一把钝刀和几个不新鲜的食材。

问题的根源，往往不是主厨的能力，而是我们提供给他的工具。

AI 智能体（Agent）的效能，与我们赋予它的工具有着最直接的关系。这篇文章，就是要分享我们在 Anthropic 内部，透过无数次实验总结出的经验：如何打造高质量的工具，如何进行全面的评估，以及最有趣的部分——如何与 Claude 这类的 AI 协作，让它自己来优化自己的工具。

所以，AI 的“工具”到底是什么？

在我们深入探讨之前，得先厘清一个观念。传统的软件开发，就像是写一份精确的食谱。只要输入相同的食材（inputs），每一步都完全照做，最终产出的菜肴（output）永远都会一模一样。这就是所谓的“确定性系统”（deterministic systems）。

但 AI 智能体不一样。它更像一位有创造力的厨师，即使拿到相同的食材，也可能根据当下的灵感，做出稍微不同的变化。它是一个“非确定性系统”（non-deterministic systems），充满了变数与可能性。

因此，为 AI 设计的“工具”，是一种全新的软件。它不再是死板的指令集，而更像是在确定性系统与非确定性智能体之间建立的一份“合约”。当使用者问“今天出门要带伞吗？”，智能体可能会呼叫天气工具，也可能从自身知识回答，甚至会反问地点。它可能会出错，也可能找不到合适的工具。

这意味着我们必须彻底改变思维。我们设计的不再是给其他开发者用的 API，而是给一个充满不确定性、需要引导的“数字大脑”使用的工具。

如何打造高效工具？一个不断循环的开发流程

想打造出让 AI 用得顺手的工具，并不是一蹴可几的事。这是一个不断“打造、评估、学习”的循环过程。

步骤一：别想太多，先动手做个原型

要预测 AI 会觉得哪些工具“顺手”，哪些会让它“困惑”，光靠想像是没用的。最好的方法就是直接动手。

你可以利用像 Claude Code 这样的工具，快速生成你的工具原型。一个小技巧是，提供它相关的软件库、API 或 SDK 文件，特别是那些 LLM 友善的纯文本文件（很多开源专案会提供 llms.txt 这种档案），这会让它事半功倍。

原型写好后，将它包装成本地的 模型上下文协议（MCP）服务器 或 桌面扩充功能（DXT），就可以在 Claude Code 或 Claude 桌面应用程序中进行测试。你也可以直接透过 Anthropic API 进行程序化测试。

亲自测试你的工具，感受一下流程是否顺畅，并收集使用者的回馈，这能帮助你建立对使用情境的直觉。

步骤二：是时候来场严格的“大考”了

原型有了，接下来你需要衡量 Claude 使用这些工具的表现如何。这需要一套全面的评估机制。

忘掉那些过于简单的“沙盒”环境吧！你需要的是源于真实世界、具有足够复杂度的评估任务。一个好的评估任务，可能需要 AI 连续呼叫多个、甚至数十个工具才能完成。

看看这两组任务的差别：

好的评估任务范例：
- “帮我跟 Jane 约下周开会，讨论最新的 Acme 公司专案。从上次的专案规划会议纪录中附加笔记，并预订一间会议室。”
- “客户 ID 9182 回报他一次购买被重复收费了三次。找出所有相关的日志记录，并判断是否有其他客户也受到影响。”
较弱的评估任务范例：
- “跟 jane @ acme.corp 约下周开会。”
- “搜寻 customer_id=9182 的付款日志。”

看到差别了吗？好的任务更贴近真实的工作流程。

每个评估任务都应该有一个可验证的结果。最简单的方式是比对字符串，复杂一点则可以让另一个 Claude 实例来判断结果是否正确。同时，你也可以在系统提示（System Prompt）中，要求 AI 在呼叫工具前回传它的“推理过程”和“反馈”，这能触发它的“思维链（Chain-of-Thought）”行为，提升解决问题的智慧。

步骤三：让 AI 成为你的最佳分析师

评估跑完，一堆数据摊在眼前，然后呢？

这时候，AI 智能体本身就是你最好的合作伙伴。它们能帮你发现从工具描述互相矛盾，到工具实作效率低下等各种问题。但请记住一个重点：大型语言模型并不总是直话直说，它“没说什么”往往比它“说了什么”更重要。

仔细观察你的 AI 在哪些地方卡住或感到困惑。阅读它的推理过程（CoT），找出那些不顺畅的地方。你甚至可以把整个评估过程的脚本（包含工具呼叫和回传）直接贴给 Claude Code，它是一位分析脚本和重构工具的专家，能确保你在修改后，工具的实作和描述依然保持一致。

事实上，这篇文章里的大部分建议，都来自于我们内部不断用 Claude Code 优化工具的实践。透过这种方式，我们发现效能提升甚至超越了由专家研究员手动撰写的工具。

打造高效工具的五大黄金准则

在经历了无数次的迭代循环后，我们提炼出了几个关键的设计准则。

准则一：少即是多，别让你的 AI 选择困难

一个常见的误区是，以为给 AI 的工具越多越好。但事实恰恰相反。如果只是简单地将现有的 API 功能一对一地封装成工具，往往会造成反效果。

AI 智能体的“上下文（context）”是有限的，就像人的短期记忆一样。而传统计算机的内存则几乎是无限的。想象一下，在通讯录里找一个人，传统软件可以快速遍历整个列表。但如果一个工具回传了“所有”联络人，让 AI 一个个去读，那无疑是在浪费它宝贵的上下文空间。

更聪明、更自然的方式，是像人一样，直接跳到相关的页面（例如按字母排序查找）。

所以，你应该设计的是针对特定高影响力工作流程的工具。例如，与其提供 list_users、list_events、create_event 三个工具，不如整合一个 schedule_event 工具，一步到位地完成查找空闲时间并安排活动。

准则二：整理你的工具箱，命名是一门艺术

当你的 AI 可以取用数十甚至数百种工具时，混乱就会产生。如果工具功能重叠或用途模糊，AI 很容易就会用错。

命名空间（Namespacing） 是个简单却有效的解决方案。透过给相关工具加上共同的前缀来分组，可以帮助 AI 在正确的时间选择正确的工具。例如：

按服务分类：asana_search, jira_search
按资源分类：asana_projects_search, asana_users_search

这样做不仅减少了 AI 上下文需要加载的工具数量，也将一部分运算负担从 AI 的“大脑”转移到了工具本身，从而降低了出错的风险。

准则三：只说重点，AI 的“注意力”很宝贵

工具的回传内容也同样重要。请务必只回传高价值的、与上下文高度相关的资讯。

AI 更擅长处理自然语言的名称或术语，而不是像 uuid 这种神秘的技术标识符。我们发现，仅仅是将一长串无意义的字母数字 ID 解析成语义更丰富的语言，就能显著提高 Claude 在检索任务中的准确性并减少幻觉。

在某些情况下，你也可以提供弹性。例如，新增一个 response_format 参数，让 AI 可以选择回传“精简（concise）”或“详细（detailed）”的结果。精简版可能只包含核心内容，而详细版则包含各种 ID，方便后续的工具呼叫。

准则四：精打细算，教你的 AI 节省“脑容量”

上下文质量很重要，但“数量”同样需要优化。工具的上下文长度是有限的，因此你需要实作像是分页（pagination）、范围选择（range selection） 和 过滤（filtering） 等功能。

如果你的工具回传结果被截断了，一定要给予清晰的提示，引导 AI 采取更节省 Token 的策略，例如进行多次小范围的精准搜寻，而不是一次大范围的模糊搜寻。

同样地，错误讯息也至关重要。与其回传一个冰冷的错误码，不如提供一个有帮助的回应，清楚地说明问题所在，并给出修正建议。

看看这个对比：

无用的错误： {"error": {"code": "RESOURCE_NOT_FOUND"}}
有用的错误： “# 资源未找到：无效的 userId。您的请求失败，因为 userId ‘john.doe @ acme.corp’ 不存在或格式错误。有效的 userId 范例为：‘192829814…’。您可以尝试呼叫 user_search() 来解决此问题。”

后者显然能更好地引导 AI 走上正确的道路。

准则五：最强大的杠杆——一句好的描述胜过千行程式码

终于，我们来到了最有效、也最常被忽略的一环：为你的工具撰写描述（prompt-engineering your tool descriptions）。

工具的描述和规格会被加载到 AI 的上下文中，直接影响它的行为。撰写时，想象一下你正在向一位新加入团队的同事解释这个工具。把那些你可能认为理所当然的背景知识——特定的查询格式、专业术语的定义、资源之间的关系——全部明确地写出来。

避免模糊不清，特别是参数命名。不要用一个模糊的 user，而是用一个明确的 user_id。

微小的改动就能带来巨大的效能提升。例如，Claude Sonnet 3.5 在 SWE-bench 验证评估中取得顶尖表现，正是因为我们对工具描述进行了精确的微调，从而大幅降低了错误率。

展望未来：与 AI 共同进化的开发新模式

为 AI 智能体打造工具，要求我们将软件开发的思维模式，从可预测的确定性世界，转向充满变化的非确定性世界。

透过我们所描述的这种迭代式、以评估为驱动的开发流程，你会发现高效的工具都具备一些共通特点：它们目标明确、善用 AI 的上下文、可以灵活组合，并能让 AI 直观地解决真实世界的问题。

未来，随着 LLM 本身和 MCP 这类互动协议的不断升级，AI 与世界互动的方式也将不断进化。但只要我们坚持这种系统性的优化方法，就能确保我们手中的工具，能与日益强大的 AI 并肩前行，共同成长。

文章来源

https://www.anthropic.com/engineering/writing-tools-for-agents

分享到:

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

Recommended for You

2 …

news

2025-11-05 AI 日报-Anthropic 封锁中资、Perplexity 杠上亚马逊、Google 发布太空 AI 计划

今日 AI 领域风波不断。Anthropic 因应地缘政治压力，开始封锁具中资背景的企业使用其模型，直接冲击字节跳动旗下平台。同时，新创公司 Perplexity 公开指控亚马逊利用法律手段打压其 AI 助理。技术方面，Google 发布了名为「Suncatcher」的太空 AI 运算计划，展现了将机器学习推向新边界的野心。 1. 地缘政治影响浮现：TRAE 停止提供 Claude 模型由于其母公司 Anthropic 的新政策，AI 服务平台 TRAE 已停止提供 Claude 模型。此举背后反映了日益紧张的地缘政治局势与科技保护主义的抬头。背后原因：地缘政治与技术保护主义这次服务中断的直接导火线是 Anthropic 于 2025 年 9 月 5 日宣布的一项严格封锁政策。该政策明确指出，任何由中国公司直接或间接持股超过 50% 的企业，不论其注册地点位于何处，都将被禁止使用 Claude 系列 AI 服务。 TRAE 平台虽然由字节跳动位于新加坡的子公司 SPRING 负责营运，但由于其显著的中资背景，依然被列入了这次的封锁名单。业界分析师认为，Anthropic 的决策主要有两个层面的考量。首先是回应来自美国的地缘政治压力，避免其先进技术流向被视为竞争对手的国家。其次，此举也是一种技术保护策略，旨在防止中国公司利用「模型蒸馏」（Model Distillation）技术——也就是以 Claude 作为强大的「教师模型」，来训练出性能相近但成本更低的自有 AI 模型，从而削弱 Anthropic 的市场竞争力。 2. OpenAI Sora App 开放更多 Android 地区下载 OpenAI 宣布，其影片生成应用程序 Sora 的 Android 版本现在已在更多国家和地区上架，包括：加拿大日本韩国台湾泰国美国越南使用者可以前往 Google Play 商店下载体验。

Nov 5, 2025 Read →

2 …

news

2025-10-30 AI日报 Cursor 2.0 与自研模型 Composer 正面对决 Cognition，Sora 限时免邀请码，AI 竟能「内省」？

2025 年 10 月 29 日（为何是 10 月 29 日，因为日报都是介绍昨日的），AI 领域迎来了惊人的爆发。AI 代码编辑器 Cursor 推出 2.0 版本及自研模型，Cognition AI 则以极速 Agent 模型应战。同时，OpenAI 的 Sora 开放了部分地区的免邀请注册，Google 为开发者送上多重好礼，而 Anthropic 的研究更揭示了 AI 模型可能具备初步的「内省」能力。今天的 AI 界真是热闹非凡！从开发者工具的重大升级，到视频生成模型的全面开放，再到关于 AI 自我意识的惊人研究，各大巨头和新创公司都在加速奔跑，竞争的火药味也越来越浓。让我们来快速盘点一下今天有哪些不容错过的重磅消息。不只是编辑器，Cursor 2.0 打造 AI 开发新范式 AI 优先的代码编辑器 Cursor 今天正式发布了其里程碑式的 Cursor 2.0 版本，带来了全新的 Agent 界面和一个令人惊喜的「杀手锏」：他们的第一款自研代理编码模型——Composer。根据官方博客的介绍，Composer 是一个前沿模型，其最大亮点在于速度——比同等智慧水准的模型快上 4 倍。这意味着开发者可以获得更即时的回应，大幅提升工作效率。除了强大的内核，Cursor 2.0 的界面也进行了彻底革新。全新的「Multi-Agents」界面允许使用者在单一提示下，最多并行运行八个 Agent。这项功能利用 git worktrees 或远程机器来避免文件冲突，让每个 Agent 都在独立的代码库副本中工作。想像一下，你可以同时让多个 AI 助手分头处理不同任务，或用不同模型解决同一个问题，然后挑选最佳方案，这简直是开发者的梦想。此外，更新日志还列出了多项改进，包括：改进的代码审查：跨多个文件的变更一目了然。沙盒终端 (GA)：在 macOS 上默认启用，提升安全性。团队指令与语音模式：让团队协作和人机互动更加流畅。速度之王登场！Cognition 发布 SWE-1.5 极速 Agent 模型就在 Cursor 推出 Composer 的同时，以 AI 工程师 Devin 闻名的 Cognition AI 似乎也闻到了挑战的气味，迅速推出了他们最新的软件工程模型 SWE-1.5。

Oct 30, 2025 Read →

2 …

news

2025年10月24日 AI 日报：OpenAI、Google、Anthropic、Microsoft 重大更新一览

掌握 2025 年 10 月 24 日最新的 AI 发展！今天，AI 领域迎来了爆炸性的一天。OpenAI 为 ChatGPT 带来了革命性的“公司知识”功能，让 AI 真正融入企业工作流程。同时，Google 推出了让应用开发更直观的 AI Studio 新模式，并大幅升级了 Google Earth AI。Anthropic 的 Claude 也没闲着，正式向个人用户开放“记忆功能”。最后，微软让经典角色“回形针”以全新 AI 形象 Mico 回归 Copilot。本文将为您深入剖析这些重大更新。 OpenAI 推出“Company Knowledge”，让 ChatGPT 更懂你的业务你是否也曾为了找一份文件，在 Slack、Google Drive 和无数封邮件中焦头烂额？工作中最需要的信息，往往像散落一地的拼图，散布在各个角落。为了解决这个长久以来的痛点，OpenAI 正式为 ChatGPT Business、Enterprise 及 Edu 用户推出了一项名为**“公司知识 (Company Knowledge)”**的强大功能。终结信息孤岛，打造企业专属大脑简单来说，“公司知识”功能就像是给了 ChatGPT 一把通往你公司内部信息库的万能钥匙。首次使用时，你只需将公司常用的应用程序（如 Slack、SharePoint、Google Drive、GitHub 等）与 ChatGPT 连接。之后，当你启用这项功能并提出问题时，ChatGPT就能夠跨平台查找所有相关资料，提供一个整合了完整上下文、专属于你公司业务的精准答案。举个例子，当你需要准备一场客户会议时，可以直接问 ChatGPT：“帮我整理一下上次与客户 A 会议后的重点，以及最近 Slack 频道中关于他们的讨论。”ChatGPT 会自动抓取 Google Docs 的会议记录、Email 中的关键细节，甚至是 Intercom 的客服问题，生成一份完整的简报。

Oct 24, 2025 Read →