當我們以為大型語言模型(LLM)驅動的 AI 智慧體(Agent)無所不能時,美團 LongCat 團隊發布的最新評測基準 VitaBench 卻給了整個產業一記當頭棒喝。這項堪稱「最難模擬考」的測試顯示,即使是頂尖的 AI 模型,在處理複雜的真實世界任務時,成功率也低得驚人。這究竟是怎麼回事?
當 AI 智慧體走出實驗室,現實給了它一巴掌
近年來,大型語言模型(LLM)驅動的 AI 智慧體(Agent)無疑是科技圈最炙手可熱的話題。我們想像著,未來只要動動嘴,AI 助理就能幫我們處理預訂餐廳、規劃旅遊、安排外送等一切大小事。聽起來很美好,對吧?
但現實總是有點骨感。目前的 AI 智慧體,在單純、封閉的環境下或許表現不錯,就像是在駕訓班的練習場開車,一切順利。然而,一旦將它們放到真實世界的十字路口——充滿了突發狀況、模糊指令和多重任務的複雜環境——它們還能應付自如嗎?
答案可能讓你有些失望。過去的許多評測基準,都過於簡化問題,無法真正反映現實生活的複雜性。這就像用一元一次方程式去評估一位數學家的能力,完全沒測出真本事。
VitaBench:為 AI 智慧體打造的「終極試煉場」
為了解決這個問題,美團的 LongCat 團隊推出了 VitaBench——一個專為評測 LLM 智慧體在真實世界應用中表現而設計的全新、高難度基準。
你可以把 VitaBench 想像成一個極度擬真的「生活模擬器」。它不再是紙上談兵,而是直接將 AI 丟進我們最熟悉的三大生活場景:
- 美食外送
- 到店消費
- 線上旅遊服務
這個模擬環境有多複雜?它整合了高達 66 種不同的工具(Tools),從查詢店家資訊、訂位、下單到支付,幾乎涵蓋了所有可能的操作。
不只是單一任務,而是「跨場景」的連續挑戰
VitaBench 的核心挑戰在於它的任務設計。它不僅有 300 個單一場景的任務,更設計了 100 個極具挑戰性的「跨場景任務」。
這是什麼概念?舉個例子,一個真實的用戶需求可能是:「幫我預訂一家能看到河景的飯店,並在入住當晚,在飯店附近找一家評價不錯、不辣的餐廳,預算 200 美元。」
這個任務要求 AI 智慧體:
- 理解複雜意圖: 不只要訂飯店,還要訂餐廳,並且兩者有關聯。
- 跨時空推理: 需要處理入住日期、晚餐時間、飯店與餐廳的地理位置關係。
- 靈活使用工具: 必須先用「飯店預訂工具」,再根據結果使用「餐廳搜尋工具」。
- 主動澄清: 如果用戶指令模糊,AI 需要主動追問,例如「您希望的餐廳是哪種菜系?」
- 追蹤動態意圖: 在多輪對話中,用戶可能會改變主意,AI 需要能跟上節奏。
老實說,這對人類來說都有點複雜,更何況是 AI?
殘酷的成績單:頂尖 AI 也紛紛「陣亡」
那麼,在這場終極試煉中,當今最強大的 AI 模型們表現如何呢?
結果可以說是相當震撼。
思考模型 (Thinking Models)
| 排名 (Rank) | 模型 (Models) | 平均 @4 (Avg @4) | 跨情境 (通過) (Cross-Scenarios (Pass)) | 跨情境 (通過 @4) (Cross-Scenarios (Pass @4)) | 單一情境 (平均 @4) (Single-Scenarios (Avg @4)) |
|---|---|---|---|---|---|
| 1 | 03 (high) | 30.0 | 6.0 | 61.0 | 53.5 |
| 2 | Al Claude-4.1-Opus (w/ thinking) | 29.0 | 56.0 | 6.0 | 47.5 |
| 3 | MLongCat-Flash-Thinking | 24.3 | 54.0 | 3.0 | 42.3 |
| 4 | Gemini-2.5-Pro | 23.5 | 53.0 | 5.0 | 49.0 |
| 5 | A Claude-4-Sonnet (w/ thinking) | 23.0 | 51.0 | 6.0 | 46.0 |
| 6 | GPT-5 (high) | 22.8 | 51.0 | 3.0 | 54.0 |
| 7 | Z GLM-4.5 (w/ thinking) | 22.8 | 48.0 | 2.0 | 44.5 |
| 8 | 04-mini (high) | 19.5 | 49.0 | 1.0 | 44.5 |
| 9 | Qwen3-235B-A22B-Thinking-2507 | 18.8 | 45.0 | 2.0 | 44.0 |
| 10 | Doubao-Seed-1.6-Thinking | 17.0 | 42.0 | 1.0 | 30.3 |
| 11 | DeepSeek-R1-0528 | 14.5 | 39.0 | 0.0 | 40.3 |
| 12 | Gemini2.5-Flash (think on) | 5.3 | 24.0 | 0.0 | 32.0 |
| 13 | Qwen3-32B (w/ thinking) | 5.0 | 47.0 | 3.0 | 22.8 |
非思考模式 (Non-thinking Mode)
| 排名 (Rank) | 模型 (Models) | 平均 @4 (Avg @4) | 跨情境 (通過) (Cross-Scenarios (Pass)) | 跨情境 (通過 @4) (Cross-Scenarios (Pass @4)) | 單一情境 (平均 @4) (Single-Scenarios (Avg @4)) |
|---|---|---|---|---|---|
| 1 | Al Claude-4.1-Opus (w/o thinking) | 21.8 | 47.0 | 3.0 | 46.0 |
| 2 | Al Claude-4-Sonnet (w/o thinking) | 21.3 | 49.0 | 4.0 | 39.0 |
| 3 | LongCat-Flash-Chat | 20.3 | 45.0 | 2.0 | 39.5 |
| 4 | GLM-4.5 (w/o thinking) | 20.0 | 47.0 | 1.0 | 45.8 |
| 5 | Qwen3-Max | 18.5 | 3.0 | 47.0 | 37.2 |
| 6 | DeepSeek-V3.2-Exp (w/o thinking) | 17.7 | 2.0 | 41.0 | 36.2 |
| 7 | DeepSeek-V3.1 (w/o thinking) | 16.3 | 40.0 | 1.0 | 34.0 |
| 8 | K Kimi-K2-0905 | 15.5 | 39.0 | 2.0 | 35.3 |
| 9 | Qwen3-235B-A22B-Instruct-2507 | 14.3 | 0.0 | 38.0 | 34.3 |
| 10 | GPT-4.1 | 13.8 | 0.0 | 35.0 | 37.8 |
| 11 | Doubao-Seed-1.6 | 10.5 | 29.0 | 0.0 | 37.8 |
| 12 | Gemini-2.5-Flash (think off) | 5.8 | 17.0 | 1.0 | 31.0 |
| 13 | Qwen3-32B (w/o thinking) | 4.0 | 0.0 | 12.0 | 16.5 |
| 14 | GPT-5 (minimal) | 4.0 | 9.0 | 0.0 | 30.0 |
| 15 | DeepSeek-V3-0324 | 3.8 | 12.0 | 0.0 | 25.3 |
根據 VitaBench 公布的 排行榜(Leaderboard),數據顯示出一個巨大的性能鴻溝:
- 在相對簡單的 300 個單一場景任務中,即便是表現最好的模型,成功率也不到 50%。
- 而在那 100 個複雜的跨場景任務中,最強模型的成功率更是暴跌至僅僅 30%!
這份成績單清楚地告訴我們,當前的 LLM 智慧體在以下幾個方面存在明顯的短板:
- 領域切換困難: 一個擅長處理旅遊預訂的 AI,在被要求同時處理餐飲問題時,很容易「當機」。
- 工具選擇障礙: 面對 66 種工具,AI 常常不知道該在何時、用哪個才是最合適的。
- 長期協調能力不足: 處理需要多個步驟、橫跨數輪對話的長遠任務,對 AI 來說依然是個巨大的挑戰。
這對我們的未來意味著什麼?
VitaBench 的出現,並不是為了打擊我們對 AI 的信心。恰恰相反,它像一面鏡子,真實地照出了當前技術的不足,為整個產業指明了前進的方向。
這項研究告訴我們,要讓 AI 智慧體真正成為我們生活中可靠的助手,不能只專注於提升模型的語言能力,更要訓練它們在複雜、動態的環境中進行推理、規劃和執行任務的能力。
VitaBench 提供了一個寶貴的資源,讓開發者們可以在一個更接近現實的環境中,測試並改進自己的 AI 代理。雖然現在的 30% 看起來很低,但這正是技術起飛前的蓄力階段。
關於 VitaBench 的常見問答
Q1: VitaBench 究竟是什麼? A: VitaBench 是一個由美團 LongCat 團隊開發的高難度評測基準,專門用來評估大型語言模型(LLM)智慧體在模擬真實世界場景(如外送、旅遊)中執行複雜互動任務的能力。
Q2: 為什麼我們需要像 VitaBench 這樣的評測工具? A: 因為現有的評測工具大多過於簡化,無法反映真實世界任務的複雜性。VitaBench 提供了一個更貼近現實的「考場」,能有效檢驗 AI 智慧體在處理多重目標、動態資訊和複雜工具集時的真實能力,從而推動技術的實際應用發展。
Q3: 目前哪些 AI 模型在 VitaBench 上表現最好? A: 根據公布的排行榜,在最具挑戰性的跨場景任務中,o3 (high)、Claude-4.1-Opus (w/ thinking) 和 LongCat-Flash-Thinking 等模型處於領先地位,但即便如此,它們的最高平均成功率也僅為 30% 左右。
Q4: 我可以如何了解或使用 VitaBench? A: VitaBench 項目是開源的,您可以訪問其 官方網站 來查看詳細的研究論文、數據集和排行榜。開發者也可以在其 GitHub 頁面 找到相關程式碼和資源。


