tool

LLM 智能体期中考:VitaBench 揭示残酷真相,顶尖模型成功率仅 30%?

October 21, 2025
Updated Oct 21
2 min read

当我们以为大型语言模型(LLM)驱动的 AI 智能体(Agent)无所不能时,美团 LongCat 团队发布的最新评测基准 VitaBench 却给了整个产业一记当头棒喝。这项堪称「最难模拟考」的测试显示,即使是顶尖的 AI 模型,在处理复杂的真实世界任务时,成功率也低得惊人。这究竟是怎么回事?


当 AI 智能体走出实验室,现实给了它一巴掌

近年来,大型语言模型(LLM)驱动的 AI 智能体(Agent)无疑是科技圈最炙手可热的话题。我们想象着,未来只要动动嘴,AI 助理就能帮我们处理预订餐厅、规划旅游、安排外送等一切大小事。听起来很美好,对吧?

但现实总是有点骨感。目前的 AI 智能体,在单纯、封闭的环境下或许表现不错,就像是在驾训班的练习场开车,一切顺利。然而,一旦将它们放到真实世界的十字路口——充满了突发状况、模糊指令和多重任务的复杂环境——它们还能应付自如吗?

答案可能让你有些失望。过去的许多评测基准,都过于简化问题,无法真正反映现实生活的复杂性。这就像用一元一次方程式去评估一位数学家的能力,完全没测出真本事。

VitaBench:为 AI 智能体打造的「终极试炼场」

为了解决这个问题,美团的 LongCat 团队推出了 VitaBench——一个专为评测 LLM 智能体在真实世界应用中表现而设计的全新、高难度基准。

你可以把 VitaBench 想象成一个极度拟真的「生活模拟器」。它不再是纸上谈兵,而是直接将 AI 丢进我们最熟悉的三大生活场景:

  • 美食外送
  • 到店消费
  • 在线旅游服务

这个模拟环境有多复杂?它整合了高达 66 种不同的工具(Tools),从查询店家信息、订位、下单到支付,几乎涵盖了所有可能的操作。

不只是单一任务,而是「跨场景」的连续挑战

VitaBench 的核心挑战在于它的任务设计。它不仅有 300 个单一场景的任务,更设计了 100 个极具挑战性的「跨场景任务」

这是什么概念?举个例子,一个真实的用户需求可能是:「帮我预订一家能看到河景的饭店,并在入住当晚,在饭店附近找一家评价不错、不辣的餐厅,预算 200 美元。」

这个任务要求 AI 智能体:

  1. 理解复杂意图: 不只要订饭店,还要订餐厅,并且两者有关联。
  2. 跨时空推理: 需要处理入住日期、晚餐时间、饭店与餐厅的地理位置关系。
  3. 灵活使用工具: 必须先用「饭店预订工具」,再根据结果使用「餐厅搜寻工具」。
  4. 主动澄清: 如果用户指令模糊,AI 需要主动追问,例如「您希望的餐厅是哪种菜系?」
  5. 追踪动态意图: 在多轮对话中,用户可能会改变主意,AI 需要能跟上节奏。

老实说,这对人类来说都有点复杂,更何况是 AI?

残酷的成绩单:顶尖 AI 也纷纷「阵亡」

那么,在这场终极试炼中,当今最强大的 AI 模型们表现如何呢?

结果可以说是相当震撼。


思考模型 (Thinking Models)

排名 (Rank)模型 (Models)平均 @4 (Avg @4)跨情境 (通过) (Cross-Scenarios (Pass))跨情境 (通过 @4) (Cross-Scenarios (Pass @4))单一情境 (平均 @4) (Single-Scenarios (Avg @4))
103 (high)30.06.061.053.5
2Al Claude-4.1-Opus (w/ thinking)29.056.06.047.5
3MLongCat-Flash-Thinking24.354.03.042.3
4Gemini-2.5-Pro23.553.05.049.0
5A Claude-4-Sonnet (w/ thinking)23.051.06.046.0
6GPT-5 (high)22.851.03.054.0
7Z GLM-4.5 (w/ thinking)22.848.02.044.5
804-mini (high)19.549.01.044.5
9Qwen3-235B-A22B-Thinking-250718.845.02.044.0
10Doubao-Seed-1.6-Thinking17.042.01.030.3
11DeepSeek-R1-052814.539.00.040.3
12Gemini2.5-Flash (think on)5.324.00.032.0
13Qwen3-32B (w/ thinking)5.047.03.022.8

非思考模式 (Non-thinking Mode)

排名 (Rank)模型 (Models)平均 @4 (Avg @4)跨情境 (通过) (Cross-Scenarios (Pass))跨情境 (通过 @4) (Cross-Scenarios (Pass @4))单一情境 (平均 @4) (Single-Scenarios (Avg @4))
1Al Claude-4.1-Opus (w/o thinking)21.847.03.046.0
2Al Claude-4-Sonnet (w/o thinking)21.349.04.039.0
3LongCat-Flash-Chat20.345.02.039.5
4GLM-4.5 (w/o thinking)20.047.01.045.8
5Qwen3-Max18.53.047.037.2
6DeepSeek-V3.2-Exp (w/o thinking)17.72.0.036.2
7DeepSeek-V3.1 (w/o thinking)16.340.01.034.0
8K Kimi-K2-090515.539.02.035.3
9Qwen3-235B-A22B-Instruct-250714.30.038.034.3
10GPT-4.113.80.035.037.8
11Doubao-Seed-1.610.529.00.037.8
12Gemini-2.5-Flash (think off)5.817.01.031.0
13Qwen3-32B (w/o thinking)4.00.012.016.5
14GPT-5 (minimal)4.09.00.030.0
15DeepSeek-V3-03243.812.00.025.3

根据 VitaBench 公布的 排行榜(Leaderboard),数据显示出一个巨大的性能鸿沟:

  • 在相对简单的 300 个单一场景任务中,即便是表现最好的模型,成功率也不到 50%
  • 而在那 100 个复杂的跨场景任务中,最强模型的成功率更是暴跌至仅仅 30%

这份成绩单清楚地告诉我们,当前的 LLM 智能体在以下几个方面存在明显的短板:

  • 领域切换困难: 一个擅长处理旅游预订的 AI,在被要求同时处理餐饮问题时,很容易「当机」。
  • 工具选择障碍: 面对 66 种工具,AI 常常不知道该在何时、用哪个才是最合适的。
  • 长期协调能力不足: 处理需要多个步骤、横跨数轮对话的长远任务,对 AI 来说依然是个巨大的挑战。

这对我们的未来意味着什么?

VitaBench 的出现,并不是为了打击我们对 AI 的信心。恰恰相反,它像一面镜子,真实地照出了当前技术的不足,为整个产业指明了前进的方向。

这项研究告诉我们,要让 AI 智能体真正成为我们生活中可靠的助手,不能只专注于提升模型的语言能力,更要训练它们在复杂、动态的环境中进行推理、规划和执行任务的能力。

VitaBench 提供了一个宝贵的资源,让开发者们可以在一个更接近现实的环境中,测试并改进自己的 AI 代理。虽然现在的 30% 看起来很低,但这正是技术起飞前的蓄力阶段。


关于 VitaBench 的常见问答

Q1: VitaBench 究竟是什么? A: VitaBench 是一个由美团 LongCat 团队开发的高难度评测基准,专门用来评估大型语言模型(LLM)智能体在模拟真实世界场景(如外送、旅游)中执行复杂互动任务的能力。

Q2: 为什么我们需要像 VitaBench 这样的评测工具? A: 因为现有的评测工具大多过于简化,无法反映真实世界任务的复杂性。VitaBench 提供了一个更贴近现实的「考场」,能有效检验 AI 智能体在处理多重目标、动态信息和复杂工具集时的真实能力,从而推动技术的实际应用发展。

Q3: 目前哪些 AI 模型在 VitaBench 上表现最好? A: 根据公布的排行榜,在最具挑战性的跨场景任务中,o3 (high)、Claude-4.1-Opus (w/ thinking) 和 LongCat-Flash-Thinking 等模型处于领先地位,但即便如此,它们的最高平均成功率也仅为 30% 左右。

Q4: 我可以如何了解或使用 VitaBench? A: VitaBench 项目是开源的,您可以访问其 官方网站 来查看详细的研究论文、数据集和排行榜。开发者也可以在其 GitHub 页面 找到相关代码和资源。

分享到:
Featured Partners

© 2026 Communeify. All rights reserved.