LLM 智能体期中考：VitaBench 揭示残酷真相，顶尖模型成功率仅 30%？

当我们以为大型语言模型（LLM）驱动的 AI 智能体（Agent）无所不能时，美团 LongCat 团队发布的最新评测基准 VitaBench 却给了整个产业一记当头棒喝。这项堪称「最难模拟考」的测试显示，即使是顶尖的 AI 模型，在处理复杂的真实世界任务时，成功率也低得惊人。这究竟是怎么回事？

当 AI 智能体走出实验室，现实给了它一巴掌

近年来，大型语言模型（LLM）驱动的 AI 智能体（Agent）无疑是科技圈最炙手可热的话题。我们想象着，未来只要动动嘴，AI 助理就能帮我们处理预订餐厅、规划旅游、安排外送等一切大小事。听起来很美好，对吧？

但现实总是有点骨感。目前的 AI 智能体，在单纯、封闭的环境下或许表现不错，就像是在驾训班的练习场开车，一切顺利。然而，一旦将它们放到真实世界的十字路口——充满了突发状况、模糊指令和多重任务的复杂环境——它们还能应付自如吗？

答案可能让你有些失望。过去的许多评测基准，都过于简化问题，无法真正反映现实生活的复杂性。这就像用一元一次方程式去评估一位数学家的能力，完全没测出真本事。

VitaBench：为 AI 智能体打造的「终极试炼场」

为了解决这个问题，美团的 LongCat 团队推出了 VitaBench——一个专为评测 LLM 智能体在真实世界应用中表现而设计的全新、高难度基准。

你可以把 VitaBench 想象成一个极度拟真的「生活模拟器」。它不再是纸上谈兵，而是直接将 AI 丢进我们最熟悉的三大生活场景：

美食外送
到店消费
在线旅游服务

这个模拟环境有多复杂？它整合了高达 66 种不同的工具（Tools），从查询店家信息、订位、下单到支付，几乎涵盖了所有可能的操作。

不只是单一任务，而是「跨场景」的连续挑战

VitaBench 的核心挑战在于它的任务设计。它不仅有 300 个单一场景的任务，更设计了 100 个极具挑战性的「跨场景任务」。

这是什么概念？举个例子，一个真实的用户需求可能是：「帮我预订一家能看到河景的饭店，并在入住当晚，在饭店附近找一家评价不错、不辣的餐厅，预算 200 美元。」

这个任务要求 AI 智能体：

理解复杂意图： 不只要订饭店，还要订餐厅，并且两者有关联。
跨时空推理： 需要处理入住日期、晚餐时间、饭店与餐厅的地理位置关系。
灵活使用工具： 必须先用「饭店预订工具」，再根据结果使用「餐厅搜寻工具」。
主动澄清： 如果用户指令模糊，AI 需要主动追问，例如「您希望的餐厅是哪种菜系？」
追踪动态意图： 在多轮对话中，用户可能会改变主意，AI 需要能跟上节奏。

老实说，这对人类来说都有点复杂，更何况是 AI？

残酷的成绩单：顶尖 AI 也纷纷「阵亡」

那么，在这场终极试炼中，当今最强大的 AI 模型们表现如何呢？

结果可以说是相当震撼。

思考模型 (Thinking Models)

排名 (Rank)	模型 (Models)	平均 @4 (Avg @4)	跨情境 (通过) (Cross-Scenarios (Pass))	跨情境 (通过 @4) (Cross-Scenarios (Pass @4))	单一情境 (平均 @4) (Single-Scenarios (Avg @4))
1	03 (high)	30.0	6.0	61.0	53.5
2	Al Claude-4.1-Opus (w/ thinking)	29.0	56.0	6.0	47.5
3	MLongCat-Flash-Thinking	24.3	54.0	3.0	42.3
4	Gemini-2.5-Pro	23.5	53.0	5.0	49.0
5	A Claude-4-Sonnet (w/ thinking)	23.0	51.0	6.0	46.0
6	GPT-5 (high)	22.8	51.0	3.0	54.0
7	Z GLM-4.5 (w/ thinking)	22.8	48.0	2.0	44.5
8	04-mini (high)	19.5	49.0	1.0	44.5
9	Qwen3-235B-A22B-Thinking-2507	18.8	45.0	2.0	44.0
10	Doubao-Seed-1.6-Thinking	17.0	42.0	1.0	30.3
11	DeepSeek-R1-0528	14.5	39.0	0.0	40.3
12	Gemini2.5-Flash (think on)	5.3	24.0	0.0	32.0
13	Qwen3-32B (w/ thinking)	5.0	47.0	3.0	22.8

非思考模式 (Non-thinking Mode)

排名 (Rank)	模型 (Models)	平均 @4 (Avg @4)	跨情境 (通过) (Cross-Scenarios (Pass))	跨情境 (通过 @4) (Cross-Scenarios (Pass @4))	单一情境 (平均 @4) (Single-Scenarios (Avg @4))
1	Al Claude-4.1-Opus (w/o thinking)	21.8	47.0	3.0	46.0
2	Al Claude-4-Sonnet (w/o thinking)	21.3	49.0	4.0	39.0
3	LongCat-Flash-Chat	20.3	45.0	2.0	39.5
4	GLM-4.5 (w/o thinking)	20.0	47.0	1.0	45.8
5	Qwen3-Max	18.5	3.0	47.0	37.2
6	DeepSeek-V3.2-Exp (w/o thinking)	17.7	2.0	.0	36.2
7	DeepSeek-V3.1 (w/o thinking)	16.3	40.0	1.0	34.0
8	K Kimi-K2-0905	15.5	39.0	2.0	35.3
9	Qwen3-235B-A22B-Instruct-2507	14.3	0.0	38.0	34.3
10	GPT-4.1	13.8	0.0	35.0	37.8
11	Doubao-Seed-1.6	10.5	29.0	0.0	37.8
12	Gemini-2.5-Flash (think off)	5.8	17.0	1.0	31.0
13	Qwen3-32B (w/o thinking)	4.0	0.0	12.0	16.5
14	GPT-5 (minimal)	4.0	9.0	0.0	30.0
15	DeepSeek-V3-0324	3.8	12.0	0.0	25.3

根据 VitaBench 公布的排行榜（Leaderboard），数据显示出一个巨大的性能鸿沟：

在相对简单的 300 个单一场景任务中，即便是表现最好的模型，成功率也不到 50%。
而在那 100 个复杂的跨场景任务中，最强模型的成功率更是暴跌至仅仅 30%！

这份成绩单清楚地告诉我们，当前的 LLM 智能体在以下几个方面存在明显的短板：

领域切换困难： 一个擅长处理旅游预订的 AI，在被要求同时处理餐饮问题时，很容易「当机」。
工具选择障碍： 面对 66 种工具，AI 常常不知道该在何时、用哪个才是最合适的。
长期协调能力不足： 处理需要多个步骤、横跨数轮对话的长远任务，对 AI 来说依然是个巨大的挑战。

这对我们的未来意味着什么？

VitaBench 的出现，并不是为了打击我们对 AI 的信心。恰恰相反，它像一面镜子，真实地照出了当前技术的不足，为整个产业指明了前进的方向。

这项研究告诉我们，要让 AI 智能体真正成为我们生活中可靠的助手，不能只专注于提升模型的语言能力，更要训练它们在复杂、动态的环境中进行推理、规划和执行任务的能力。

VitaBench 提供了一个宝贵的资源，让开发者们可以在一个更接近现实的环境中，测试并改进自己的 AI 代理。虽然现在的 30% 看起来很低，但这正是技术起飞前的蓄力阶段。

关于 VitaBench 的常见问答

Q1: VitaBench 究竟是什么？ A: VitaBench 是一个由美团 LongCat 团队开发的高难度评测基准，专门用来评估大型语言模型（LLM）智能体在模拟真实世界场景（如外送、旅游）中执行复杂互动任务的能力。

Q2: 为什么我们需要像 VitaBench 这样的评测工具？ A: 因为现有的评测工具大多过于简化，无法反映真实世界任务的复杂性。VitaBench 提供了一个更贴近现实的「考场」，能有效检验 AI 智能体在处理多重目标、动态信息和复杂工具集时的真实能力，从而推动技术的实际应用发展。

Q3: 目前哪些 AI 模型在 VitaBench 上表现最好？ A: 根据公布的排行榜，在最具挑战性的跨场景任务中，o3 (high)、Claude-4.1-Opus (w/ thinking) 和 LongCat-Flash-Thinking 等模型处于领先地位，但即便如此，它们的最高平均成功率也仅为 30% 左右。

Q4: 我可以如何了解或使用 VitaBench？ A: VitaBench 项目是开源的，您可以访问其官方网站来查看详细的研究论文、数据集和排行榜。开发者也可以在其 GitHub 页面找到相关代码和资源。

分享到:

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

不 …

tool

不仅是夺金：Google DeepMind 推出 IMO-Bench，为 AI 数学推理能力树立新标杆

Google DeepMind 在其 Gemini 模型于国际数学奥林匹亚（IMO）竞赛达到金牌标准后，正式发布 IMO-Bench。这不只是一个评测工具，更是一套推动 AI 从「解决问题」迈向「深度推理」的全新基准，旨在引领 AI 领域进入更强健、更富创造力的数学推理新时代。 AI 数学竞赛夺金之后，我们该关注什么？ 2025 年 7 月，人工智能领域迎来了一个历史性的时刻：Google DeepMind 的先进 Gemini 模型，搭载了 Deep Think 技术，在国际数学奥林匹亚（IMO）竞赛中达到了金牌标准。这无疑是 AI 发展的重大里程碑。然而，这场胜利的意义远不止于在 IMO 等级的难题上取得优异成绩。真正的目标，是打造一个能够进行深度、稳健数学推理的系统。毕竟，只给出正确答案是不够的，理解并证明「为何如此」才是通往真正智慧的关键。正是基于这样的理念，在 EMNLP 2025 大会上，Google DeepMind 隆重推出了 IMO-Bench——一套先进的推理基准测试。它不仅在 Gemini 的夺金之路上扮演了核心角色，更旨在为整个 AI 社群推开数学推理能力的新大门。所以，IMO-Bench 到底是什么？简单来说，IMO-Bench 是一套专门用来评估 AI 模型数学能力的「考题」。但这可不是普通的考试，它的所有题目都经过了由 10 位 IMO 金牌和 5 位银牌得主组成的专家小组严格审核。 IMO 的题目之所以困难，是因为它们不仅需要严谨的多步骤推理，更需要跳脱公式框架的创造力。这也正是 IMO-Bench 的核心所在。它不只关心 AI 能否算出答案，更关心 AI 能否「思考」。 IMO-Bench 主要由三个部分组成，各有侧重： IMO-AnswerBench：大规模测试，包含 400 道题目，专注于评估模型「给出正确答案」的能力。 IMO-ProofBench：进阶评估，包含 60 道题目，旨在检验模型「撰写严谨证明过程」的能力。 IMO-GradingBench：包含 1000 个案例，用于推动「自动评估长篇答案」的技术进展。这套基准的发布，就是希望引导社群的焦点从单纯的「最终答案」转移到更为关键的「证明过程」本身，从而实现对 AI 推理能力的更严格评估。

Nov 5, 2025 Read →

A …

tool

AI 模型最新排名出炉：为何最强大的模型不一定每次都赢？

探索最新的 AI 模型任务完成度评测报告 TaskBench。令人惊讶的是，Gemini 2.5 Flash 等模型在特定任务上的表现超越了许多知名的大型模型。本文将深入解析评测结果，并探讨为何“更大”不等于“更好”。 AI 世界的风向变了？新评测揭示惊人结果在人工智能的领域里，我们总是在追逐下一个更强大、更聪明的模型。从 GPT 系列到 Claude，再到 Gemini，各大巨头的军备竞赛似乎永无止境。但如果比较的标准不只是学术测验，而是真实世界中的任务完成能力，结果会是如何？最近，一份名为 TaskBench 的综合评测报告引起了广泛关注。这份报告不玩虚的，它直接测试各大语言模型在处理实际工作时的表现。结果呢？可以说是有点出乎意料。Google 的 Gemini 2.5 Flash 最新版本在整体任务完成度上名列前茅，在某些方面甚至超越了那些听起来更“重量级”的对手。这份报告不仅仅是一张排名表，它更像一面镜子，反映出 AI 在实用性层面的真实样貌。所以，TaskBench 到底是什么？在我们深入探讨排名之前，得先聊聊 TaskBench 是什么，以及它为何如此重要。简单来说，TaskBench 是一个全面的评估套件，专门用来测试语言模型处理真实世界 AI 任务的能力。它和那些偏重学术理论的基准测试不太一样，TaskBench 更关心的是“这东西到底能不能用”。它的评估方式很实际：每一个测试样本都模拟一次 API 请求，包含结构化的输入和输出，完全比照开发者在实际应用中会遇到的情况。这代表 TaskBench 的分数，直接反映了一个模型在接到具体指令时，能否漂亮地完成任务。最新 AI 模型任务完成度排行榜好了，话不多说，直接来看数据。这份榜单根据模型在三大核心能力上的表现进行排名：情境理解 (Context)、SQL 生成和代理能力 (Agents)。分数代表模型成功完成任务的百分比。排名模型情境理解 (Context) SQL 生成 (SQL) 代理能力 (Agents) #1 grok-4-fast-reasoning 95.0% 94.2% 93.0% #2 gemini-flash-latest 93.3% 95.8% 87.0% #3 grok-4 88.3% 95.8% 91.0% #4 claude-sonnet-4 96.7% 90.0% 89.0% #5 o3 93.3% 93.3% 91.0% #6 claude-opus-4.1 91.7% 95.0% 87.0% #7 claude-sonnet-4.5 98.3% 95.0% 85.0% #8 glm-4.5 90.0% 95.0% 83.0% #9 gpt-5-mini 96.7% 95.0% 83.0% #10 claude-opus-4 93.3% 94.2% 83.0% #11 gpt-5 88.3% 95.0% 87.0% #12 o1 91.7% 96.7% 75.0% #13 claude-3.5-sonnet 90.0% 91.7% 85.0% #14 grok-3 86.7% 91.7% 81.0% #15 claude-3.7-sonnet 86.7% 94.2% 83.0% #16 gemini-2.5-flash 93.3% 93.3% 77.0% #17 o4-mini 88.3% 94.2% 87.0% #18 gpt-oss-120b 88.3% 94.2% 85.0% #19 gemini-2.5-pro 93.3% 91.7% 75.0% #20 gpt-4.1 83.3% 96.7% 83.0% 想看完整的 48 个模型排名和详细数据吗？可以前往 Opper 的官方页面查看。

Oct 9, 2025 Read →

A …

tool

AI 连时钟都看不懂？ClockBench 最新测试揭示顶尖模型的惊人弱点

我们总以为 AI 无所不能，但一个简单的类比时钟却让 Google Gemini 和 OpenAI GPT-5 等顶尖模型纷纷败下阵来。最新的 ClockBench 基准测试显示，人类的准确率高达 89.1%，而最强的 AI 却只有 13.3%。这项发现揭示了 AI 在视觉推理能力上的巨大鸿沟，以及未来发展的关键挑战。我们经常惊叹于人工智能的飞速进步。它们能写诗、能编写代码、能生成以假乱真的图像，似乎正朝着超越人类智慧的道路一路狂奔。但如果现在问你一个问题：当今最顶尖的 AI，看得懂传统的指针时钟吗？答案可能会让你大吃一惊。最近，一个名为 ClockBench 的全新 AI 基准测试平台，就给了这些超级大脑们一个“下马威”。结果显示，即使是像 Google Gemini 2.5 Pro 和传闻中的 GPT-5 这样的顶级模型，在“读懂时钟”这个看似简单的任务上，表现也只能用“惨不忍睹”来形容。这不只是看时间，而是对 AI 推理能力的终极拷问你可能会想，不过就是个时钟，有什么难的？这正是 ClockBench 设计的巧妙之处。读取类比时钟不仅仅是辨识数字而已，它需要一种更深层次的能力——视觉推理。AI 必须理解时针、分针和秒针之间的空间关系，辨识刻度，并将这些视觉信息综合起来，转换成一个精确的时间概念。这项任务的难度，据研究人员表示，足以媲美 DeepMind 创办人 François Chollet 所提出的 ARC-AGI-2 挑战，甚至可能比知名的“人类最终大考（Humanity’s Last Exam）”还要困难。它直接戳中了当前 AI 技术的核心弱点。不只是答错，而是错得离谱 ClockBench 的测试结果，用“惊人”来形容绝不为过。数据显示：人类的平均准确率高达 89.1%。(这边备注一下，他们选择的时钟测试样本有一个只有时针跟分针，没有刻度) 表现最好的 AI 模型 Gemini 2.5 Pro，准确率却只有 13.3%。更让人意外的不是“答错”，而是“错得多离谱”。研究人员发现，人类在读错时间时，中位数误差通常只有 3 分钟。这很合理，可能是匆忙间看错了一点点。然而，表现最好的 AI 模型，其中位数误差竟然长达 1 小时！至于那些表现较差的模型，误差更是高达 3 小时左右。在一个 12 小时制的时钟上，3 小时的误差几乎跟随机乱猜没什么两样了。

Sep 10, 2025 Read →