大規模言語モデル(LLM)を搭載したAIエージェントが万能だと思っていた矢先、美団のLongCatチームが発表した最新のベンチマーク「VitaBench」が業界全体に冷や水を浴びせました。この「最難関の模擬試験」とも言えるテストは、トップクラスのAIモデルでさえ、複雑な現実世界のタスクを処理する際の成功率が驚くほど低いことを示しています。一体何が起こっているのでしょうか?
AIエージェントが研究室から出ると、現実に打ちのめされる
近年、大規模言語モデル(LLM)を搭載したAIエージェントは、間違いなくテクノロジー業界で最もホットな話題です。私たちは、将来的には口頭で指示するだけで、AIアシスタントがレストランの予約、旅行の計画、配達の手配など、あらゆる大小の雑事を処理してくれる未来を想像しています。素晴らしいと思いませんか?
しかし、現実は常に少し厳しいものです。現在のAIエージェントは、単純で閉鎖的な環境ではうまく機能するかもしれませんが、それは教習所の練習コースで運転するようなもので、すべてが順調に進みます。しかし、現実世界の交差点、つまり予期せぬ状況、曖昧な指示、複数のタスクが入り混じる複雑な環境に置かれたとき、彼らはまだうまく対処できるでしょうか?
答えは少しがっかりさせるかもしれません。過去の多くの評価ベンチマークは、問題を単純化しすぎており、実生活の複雑さを真に反映することができませんでした。これは、一次方程式を使って数学者の能力を評価するようなもので、真の実力をまったく測定できていません。
VitaBench:AIエージェントのための「究極の試練の場」
この問題を解決するために、美団のLongCatチームはVitaBenchを立ち上げました。これは、実世界のアプリケーションにおけるLLMエージェントのパフォーマンスを評価するために特別に設計された、新しい高難易度のベンチマークです。
VitaBenchは、非常にリアルな「生活シミュレーター」と考えることができます。もはや机上の空論ではなく、AIを私たちが最もよく知る3つの主要な生活シーンに直接投入します。
- フードデリバリー
- 店舗での消費
- オンライン旅行サービス
このシミュレートされた環境はどれほど複雑なのでしょうか?店舗情報の照会、予約、注文から支払いに至るまで、考えられるほぼすべての操作を網羅する、最大66種類のツールを統合しています。
単一のタスクだけでなく、「クロスシナリオ」の連続的な挑戦
VitaBenchの中核的な課題は、そのタスク設計にあります。300の単一シナリオのタスクだけでなく、**100の非常に挑戦的な「クロスシナリオタスク」**も設計されています。
これはどういう意味でしょうか?たとえば、実際のユーザーリクエストは次のようになるかもしれません。「川の景色が見えるホテルを予約して、チェックインの夜に、ホテルの近くで評価が高く、辛くなく、予算200ドルのレストランを探してください。」
このタスクでは、AIエージェントは次のことを行う必要があります。
- 複雑な意図の理解: ホテルを予約するだけでなく、レストランも予約する必要があり、両者には関連性があります。
- 時空を超えた推論: チェックイン日、夕食の時間、ホテルとレストランの地理的な関係を処理する必要があります。
- ツールの柔軟な使用: まず「ホテル予約ツール」を使用し、その結果に基づいて「レストラン検索ツール」を使用する必要があります。
- 積極的な明確化: ユーザーの指示が曖昧な場合、AIは「レストランの料理の種類はどのようになさいますか?」など、積極的に質問する必要があります。
- 動的な意図の追跡: 複数回の対話の中で、ユーザーが心変わりする可能性があり、AIはそれに追随できる必要があります。
正直なところ、これは人間にとっても少し複雑です。ましてやAIにとってはなおさらです。
残酷な成績表:トップAIも次々と「脱落」
では、この究極の試練で、今日の最も強力なAIモデルはどのように機能したのでしょうか?
結果はかなり衝撃的です。
思考モデル
| ランク | モデル | 平均@4 | クロスシナリオ(合格) | クロスシナリオ(合格@4) | シングルシナリオ(平均@4) |
|---|---|---|---|---|---|
| 1 | 03 (high) | 30.0 | 6.0 | 61.0 | 53.5 |
| 2 | Al Claude-4.1-Opus (w/ thinking) | 29.0 | 56.0 | 6.0 | 47.5 |
| 3 | MLongCat-Flash-Thinking | 24.3 | 54.0 | 3.0 | 42.3 |
| 4 | Gemini-2.5-Pro | 23.5 | 53.0 | 5.0 | 49.0 |
| 5 | A Claude-4-Sonnet (w/ thinking) | 23.0 | 51.0 | 6.0 | 46.0 |
| 6 | GPT-5 (high) | 22.8 | 51.0 | 3.0 | 54.0 |
| 7 | Z GLM-4.5 (w/ thinking) | 22.8 | 48.0 | 2.0 | 44.5 |
| 8 | 04-mini (high) | 19.5 | 49.0 | 1.0 | 44.5 |
| 9 | Qwen3-235B-A22B-Thinking-2507 | 18.8 | 45.0 | 2.0 | 44.0 |
| 10 | Doubao-Seed-1.6-Thinking | 17.0 | 42.0 | 1.0 | 30.3 |
| 11 | DeepSeek-R1-0528 | 14.5 | 39.0 | 0.0 | 40.3 |
| 12 | Gemini2.5-Flash (think on) | 5.3 | 24.0 | 0.0 | 32.0 |
| 13 | Qwen3-32B (w/ thinking) | 5.0 | 47.0 | 3.0 | 22.8 |
非思考モード
| ランク | モデル | 平均@4 | クロスシナリオ(合格) | クロスシナリオ(合格@4) | シングルシナリオ(平均@4) |
|---|---|---|---|---|---|
| 1 | Al Claude-4.1-Opus (w/o thinking) | 21.8 | 47.0 | 3.0 | 46.0 |
| 2 | Al Claude-4-Sonnet (w/o thinking) | 21.3 | 49.0 | 4.0 | 39.0 |
| 3 | LongCat-Flash-Chat | 20.3 | 45.0 | 2.0 | 39.5 |
| 4 | GLM-4.5 (w/o thinking) | 20.0 | 47.0 | 1.0 | 45.8 |
| 5 | Qwen3-Max | 18.5 | 3.0 | 47.0 | 37.2 |
| 6 | DeepSeek-V3.2-Exp (w/o thinking) | 17.7 | 2.0 | 41.0 | 36.2 |
| 7 | DeepSeek-V3.1 (w/o thinking) | 16.3 | 40.0 | 1.0 | 34.0 |
| 8 | K Kimi-K2-0905 | 15.5 | 39.0 | 2.0 | 35.3 |
| 9 | Qwen3-235B-A22B-Instruct-2507 | 14.3 | 0.0 | 38.0 | 34.3 |
| 10 | GPT-4.1 | 13.8 | 0.0 | 35.0 | 37.8 |
| 11 | Doubao-Seed-1.6 | 10.5 | 29.0 | 0.0 | 37.8 |
| 12 | Gemini-2.5-Flash (think off) | 5.8 | 17.0 | 1.0 | 31.0 |
| 13 | Qwen3-32B (w/o thinking) | 4.0 | 0.0 | 12.0 | 16.5 |
| 14 | GPT-5 (minimal) | 4.0 | 9.0 | 0.0 | 30.0 |
| 15 | DeepSeek-V3-0324 | 3.8 | 12.0 | 0.0 | 25.3 |
VitaBenchが公開したリーダーボードによると、データは大きなパフォーマンスのギャップを示しています。
- 比較的単純な300の単一シナリオタスクでは、最もパフォーマンスの高いモデルでさえ、成功率は50%未満です。
- 100の複雑なクロスシナリオタスクでは、最強のモデルの成功率はわずか**30%**に急落します!
この成績表は、現在のLLMエージェントが次の点で重大な欠点があることを明確に示しています。
- ドメイン切り替えの難しさ: 旅行の予約が得意なAIは、同時に食事の問題を処理するように求められると、簡単に「クラッシュ」してしまいます。
- ツール選択の障害: 66種類のツールを前にして、AIはいつ、どれを使うのが最も適切なのかわからないことがよくあります。
- 長期的な調整能力の欠如: 複数のステップを必要とし、数回の対話にまたがる長期的なタスクの処理は、AIにとって依然として大きな課題です。
これは私たちの未来にとって何を意味するのでしょうか?
VitaBenchの登場は、AIに対する私たちの信頼を損なうためのものではありません。それどころか、それは鏡のように、現在の技術の欠点を正直に映し出し、業界全体が進むべき方向を示しています。
この研究は、AIエージェントを私たちの生活の中で真に信頼できるアシスタントにするためには、モデルの言語能力を向上させるだけでなく、複雑で動的な環境で推論、計画、タスクを実行する能力を訓練する必要があることを示しています。
VitaBenchは、開発者がより現実に近い環境でAIエージェントをテストおよび改善するための貴重なリソースを提供します。現在の30%は低く見えるかもしれませんが、これはまさに技術が離陸する前の力を蓄える段階です。
VitaBenchに関するよくある質問
Q1:VitaBenchとは一体何ですか? A:VitaBenchは、美団のLongCatチームが開発した高難易度の評価ベンチマークで、大規模言語モデル(LLM)エージェントが、配達や旅行などのシミュレートされた実世界のシナリオで複雑な対話型タスクを実行する能力を評価するために特別に設計されています。
Q2:なぜVitaBenchのような評価ツールが必要なのですか? A:既存の評価ツールはほとんどが単純化されすぎており、実世界のタスクの複雑さを反映できないためです。VitaBenchは、現実に近い「試験場」を提供し、複数の目標、動的な情報、複雑なツールセットを処理する際のAIエージェントの真の能力を効果的に検証し、それによって技術の実用的な応用と開発を促進します。
Q3:現在、どのAIモデルがVitaBenchで最も優れたパフォーマンスを発揮していますか? A:公開されているリーダーボードによると、最も挑戦的なクロスシナリオタスクでは、o3(high)、Claude-4.1-Opus(w/ thinking)、LongCat-Flash-Thinkingなどのモデルがリードしていますが、それでも最高の平均成功率はわずか30%程度です。
Q4:VitaBenchについて詳しく知ったり、使用したりするにはどうすればよいですか? A:VitaBenchプロジェクトはオープンソースです。公式ウェブサイトにアクセスして、詳細な研究論文、データセット、リーダーボードを閲覧できます。開発者は、GitHubページで関連するコードとリソースを見つけることもできます。


