当我们以为大型语言模型(LLM)驱动的 AI 智能体(Agent)无所不能时,美团 LongCat 团队发布的最新评测基准 VitaBench 却给了整个产业一记当头棒喝。这项堪称「最难模拟考」的测试显示,即使是顶尖的 AI 模型,在处理复杂的真实世界任务时,成功率也低得惊人。这究竟是怎么回事?
当 AI 智能体走出实验室,现实给了它一巴掌
近年来,大型语言模型(LLM)驱动的 AI 智能体(Agent)无疑是科技圈最炙手可热的话题。我们想象着,未来只要动动嘴,AI 助理就能帮我们处理预订餐厅、规划旅游、安排外送等一切大小事。听起来很美好,对吧?
但现实总是有点骨感。目前的 AI 智能体,在单纯、封闭的环境下或许表现不错,就像是在驾训班的练习场开车,一切顺利。然而,一旦将它们放到真实世界的十字路口——充满了突发状况、模糊指令和多重任务的复杂环境——它们还能应付自如吗?
答案可能让你有些失望。过去的许多评测基准,都过于简化问题,无法真正反映现实生活的复杂性。这就像用一元一次方程式去评估一位数学家的能力,完全没测出真本事。
VitaBench:为 AI 智能体打造的「终极试炼场」
为了解决这个问题,美团的 LongCat 团队推出了 VitaBench——一个专为评测 LLM 智能体在真实世界应用中表现而设计的全新、高难度基准。
你可以把 VitaBench 想象成一个极度拟真的「生活模拟器」。它不再是纸上谈兵,而是直接将 AI 丢进我们最熟悉的三大生活场景:
- 美食外送
- 到店消费
- 在线旅游服务
这个模拟环境有多复杂?它整合了高达 66 种不同的工具(Tools),从查询店家信息、订位、下单到支付,几乎涵盖了所有可能的操作。
不只是单一任务,而是「跨场景」的连续挑战
VitaBench 的核心挑战在于它的任务设计。它不仅有 300 个单一场景的任务,更设计了 100 个极具挑战性的「跨场景任务」。
这是什么概念?举个例子,一个真实的用户需求可能是:「帮我预订一家能看到河景的饭店,并在入住当晚,在饭店附近找一家评价不错、不辣的餐厅,预算 200 美元。」
这个任务要求 AI 智能体:
- 理解复杂意图: 不只要订饭店,还要订餐厅,并且两者有关联。
- 跨时空推理: 需要处理入住日期、晚餐时间、饭店与餐厅的地理位置关系。
- 灵活使用工具: 必须先用「饭店预订工具」,再根据结果使用「餐厅搜寻工具」。
- 主动澄清: 如果用户指令模糊,AI 需要主动追问,例如「您希望的餐厅是哪种菜系?」
- 追踪动态意图: 在多轮对话中,用户可能会改变主意,AI 需要能跟上节奏。
老实说,这对人类来说都有点复杂,更何况是 AI?
残酷的成绩单:顶尖 AI 也纷纷「阵亡」
那么,在这场终极试炼中,当今最强大的 AI 模型们表现如何呢?
结果可以说是相当震撼。
思考模型 (Thinking Models)
| 排名 (Rank) | 模型 (Models) | 平均 @4 (Avg @4) | 跨情境 (通过) (Cross-Scenarios (Pass)) | 跨情境 (通过 @4) (Cross-Scenarios (Pass @4)) | 单一情境 (平均 @4) (Single-Scenarios (Avg @4)) |
|---|---|---|---|---|---|
| 1 | 03 (high) | 30.0 | 6.0 | 61.0 | 53.5 |
| 2 | Al Claude-4.1-Opus (w/ thinking) | 29.0 | 56.0 | 6.0 | 47.5 |
| 3 | MLongCat-Flash-Thinking | 24.3 | 54.0 | 3.0 | 42.3 |
| 4 | Gemini-2.5-Pro | 23.5 | 53.0 | 5.0 | 49.0 |
| 5 | A Claude-4-Sonnet (w/ thinking) | 23.0 | 51.0 | 6.0 | 46.0 |
| 6 | GPT-5 (high) | 22.8 | 51.0 | 3.0 | 54.0 |
| 7 | Z GLM-4.5 (w/ thinking) | 22.8 | 48.0 | 2.0 | 44.5 |
| 8 | 04-mini (high) | 19.5 | 49.0 | 1.0 | 44.5 |
| 9 | Qwen3-235B-A22B-Thinking-2507 | 18.8 | 45.0 | 2.0 | 44.0 |
| 10 | Doubao-Seed-1.6-Thinking | 17.0 | 42.0 | 1.0 | 30.3 |
| 11 | DeepSeek-R1-0528 | 14.5 | 39.0 | 0.0 | 40.3 |
| 12 | Gemini2.5-Flash (think on) | 5.3 | 24.0 | 0.0 | 32.0 |
| 13 | Qwen3-32B (w/ thinking) | 5.0 | 47.0 | 3.0 | 22.8 |
非思考模式 (Non-thinking Mode)
| 排名 (Rank) | 模型 (Models) | 平均 @4 (Avg @4) | 跨情境 (通过) (Cross-Scenarios (Pass)) | 跨情境 (通过 @4) (Cross-Scenarios (Pass @4)) | 单一情境 (平均 @4) (Single-Scenarios (Avg @4)) |
|---|---|---|---|---|---|
| 1 | Al Claude-4.1-Opus (w/o thinking) | 21.8 | 47.0 | 3.0 | 46.0 |
| 2 | Al Claude-4-Sonnet (w/o thinking) | 21.3 | 49.0 | 4.0 | 39.0 |
| 3 | LongCat-Flash-Chat | 20.3 | 45.0 | 2.0 | 39.5 |
| 4 | GLM-4.5 (w/o thinking) | 20.0 | 47.0 | 1.0 | 45.8 |
| 5 | Qwen3-Max | 18.5 | 3.0 | 47.0 | 37.2 |
| 6 | DeepSeek-V3.2-Exp (w/o thinking) | 17.7 | 2.0 | .0 | 36.2 |
| 7 | DeepSeek-V3.1 (w/o thinking) | 16.3 | 40.0 | 1.0 | 34.0 |
| 8 | K Kimi-K2-0905 | 15.5 | 39.0 | 2.0 | 35.3 |
| 9 | Qwen3-235B-A22B-Instruct-2507 | 14.3 | 0.0 | 38.0 | 34.3 |
| 10 | GPT-4.1 | 13.8 | 0.0 | 35.0 | 37.8 |
| 11 | Doubao-Seed-1.6 | 10.5 | 29.0 | 0.0 | 37.8 |
| 12 | Gemini-2.5-Flash (think off) | 5.8 | 17.0 | 1.0 | 31.0 |
| 13 | Qwen3-32B (w/o thinking) | 4.0 | 0.0 | 12.0 | 16.5 |
| 14 | GPT-5 (minimal) | 4.0 | 9.0 | 0.0 | 30.0 |
| 15 | DeepSeek-V3-0324 | 3.8 | 12.0 | 0.0 | 25.3 |
根据 VitaBench 公布的 排行榜(Leaderboard),数据显示出一个巨大的性能鸿沟:
- 在相对简单的 300 个单一场景任务中,即便是表现最好的模型,成功率也不到 50%。
- 而在那 100 个复杂的跨场景任务中,最强模型的成功率更是暴跌至仅仅 30%!
这份成绩单清楚地告诉我们,当前的 LLM 智能体在以下几个方面存在明显的短板:
- 领域切换困难: 一个擅长处理旅游预订的 AI,在被要求同时处理餐饮问题时,很容易「当机」。
- 工具选择障碍: 面对 66 种工具,AI 常常不知道该在何时、用哪个才是最合适的。
- 长期协调能力不足: 处理需要多个步骤、横跨数轮对话的长远任务,对 AI 来说依然是个巨大的挑战。
这对我们的未来意味着什么?
VitaBench 的出现,并不是为了打击我们对 AI 的信心。恰恰相反,它像一面镜子,真实地照出了当前技术的不足,为整个产业指明了前进的方向。
这项研究告诉我们,要让 AI 智能体真正成为我们生活中可靠的助手,不能只专注于提升模型的语言能力,更要训练它们在复杂、动态的环境中进行推理、规划和执行任务的能力。
VitaBench 提供了一个宝贵的资源,让开发者们可以在一个更接近现实的环境中,测试并改进自己的 AI 代理。虽然现在的 30% 看起来很低,但这正是技术起飞前的蓄力阶段。
关于 VitaBench 的常见问答
Q1: VitaBench 究竟是什么? A: VitaBench 是一个由美团 LongCat 团队开发的高难度评测基准,专门用来评估大型语言模型(LLM)智能体在模拟真实世界场景(如外送、旅游)中执行复杂互动任务的能力。
Q2: 为什么我们需要像 VitaBench 这样的评测工具? A: 因为现有的评测工具大多过于简化,无法反映真实世界任务的复杂性。VitaBench 提供了一个更贴近现实的「考场」,能有效检验 AI 智能体在处理多重目标、动态信息和复杂工具集时的真实能力,从而推动技术的实际应用发展。
Q3: 目前哪些 AI 模型在 VitaBench 上表现最好? A: 根据公布的排行榜,在最具挑战性的跨场景任务中,o3 (high)、Claude-4.1-Opus (w/ thinking) 和 LongCat-Flash-Thinking 等模型处于领先地位,但即便如此,它们的最高平均成功率也仅为 30% 左右。
Q4: 我可以如何了解或使用 VitaBench? A: VitaBench 项目是开源的,您可以访问其 官方网站 来查看详细的研究论文、数据集和排行榜。开发者也可以在其 GitHub 页面 找到相关代码和资源。


