美団のMeeseeksが登場：AIモデルの「従順さ」の大きな試練 - 究極の挑戦に合格できるのは誰か？

AIは十分に「従順」ではない？美団は、新しい指示追従評価ベンチマークであるMeeseeksをリリースしました。独自の多ターンエラー修正メカニズムを通じて、AIモデルが複雑な指示を真に理解して実行できるかどうかを深く評価します。この記事では、Meeseeksの3層評価フレームワーク、その技術的原則、そしてAI開発にとってなぜそれが重要なのかを詳しく説明します。

こんな経験はありませんか？AIアシスタントに一連の指示を細心の注意を払って与え、特定のフォーマット、トーン、さらには韻律に合ったコピーを生成してくれることを期待したのに、まったく見当違いの答えが返ってきた。このような「話が通じない」ジレンマは、今日の多くの強力な言語モデルが直面している共通の課題です。つまり、知識は豊富でも、必ずしも「従順」ではないのです。

この問題を解決するために、美団の研究チームはMeeseeksという新しい指示追従能力評価ベンチマークを立ち上げました。これはAI向けに設計された超難関の運転免許試験のようなもので、モデルの基本能力をテストするだけでなく、連続した多ターンの対話における適応性と自己修正能力にも重点を置いています。

これは単なるベンチマークテストではありません。AIとのやり取りの現実世界のシナリオをシミュレートしています。私たちが要求を出し、AIが応答し、その応答に基づいてフィードバックを提供し、修正を要求します。では、Meeseeksはどのように機能するのでしょうか？そして、AIモデルの進化をどのように推進するのでしょうか？

では、Meeseeksとは一体何なのでしょうか？

簡単に言えば、MeeseeksはAIモデルの「指示追従」能力を評価するために特別に設計されたベンチマークテストです。他の評価との最大の違いは、特別に設計された多ターンシナリオです。

従来の評価は、一度しか回答する機会のない試験のようなものだと想像してみてください。間違えたら終わりです。しかし、Meeseeksはもっと忍耐強い先生のようです。モデルが最初の回答で全ての指示を完全に満たせなかった場合、評価フレームワークは自動的に構造化されたフィードバックを生成し、どこが間違っていたかを明確に指摘し、モデルに「フィードバックに基づいて回答を修正する」よう求めます。

このプロセスは単なる評価ではなく、モデルの適応性、指示遵守、反復改善の可能性を試すものでもあります。これこそが、その核心的な特徴である、組み込みの「自己修正ループ」です。

3層評価フレームワーク：MeeseeksはAIをどのように「尋問」するか

モデルを包括的かつ客観的に評価するために、Meeseeksは洗練された「3レベル能力」評価フレームワークを設計しました。このフレームワークは、浅いところから深いところへと段階的に進み、最も「従順な」モデルだけが際立つようにします。

レベル1の能力：私の核心的な意味を理解していますか？

これは最も基本的なテストで、モデルがユーザーの核心的なタスクの意図を正しく理解しているかどうかを評価します。

核心的なタスク: モデルは「詩を書く」のか「レビューを書く」のかを知っていますか？
全体的な構造: 3段落の記事を生成するように求められた場合、モデルは実際に3段落を生成しましたか？
独立した単位: 記事の各文または段落は、指示の詳細に準拠していますか？

この層は、AIが最初から脱線しないようにします。

レベル2の能力：細部が成功または失敗を決定する

モデルが最初のレベルを通過すると、より具体的な制約に直面します。これらは主に2つのカテゴリに分類されます。

コンテンツの制約: テーマ（夏について）、スタイル（軽くてユーモラス）、言語（繁体字中国語）、文字数（200文字以内）など。
フォーマットの制約: 指定されたテンプレートに従っていますか？段落またはポイントの数は正しいですか？

この層は、単なる大まかな理解ではなく、モデルの正確な実行能力をテストします。

レベル3の能力：究極の挑戦 - 微妙なルール

これは最も難しいレベルで、非常にきめ細かいルールに対するモデルの遵守能力を評価します。これらのルールはしばしば非常に「直感に反する」ものであり、モデルに非常に強い制御を要求します。例えば：

韻: 各文の終わりは「an」で韻を踏まなければなりません。
キーワードの回避: 記事全体で「しかし」という単語は禁止されています。
繰り返しの禁止: 同じ文や単語を繰り返すことはできません。
記号の使用: ピリオドとコンマのみを使用できます。

多くのモデルは、コンテンツを生成しながらこれらの微妙な制限を常に監視する必要があるため、このレベルで「正体を現す」ことになります。

一度きりの試験ではない：Meeseeksの「修正ループ」

Meeseeksの最も魅力的な部分は、その多ターンエラー修正モードです。AIの最初の回答に欠陥があった場合（例えば、文字数制限を忘れたり、間違った記号を使用したりした場合）、システムはそれを直接不合格とは判断しません。

代わりに、「あなたの回答は『文字数制限200文字以内』という指示を満たしていません。修正してください」といった具体的なフィードバックを提供します。その後、モデルはこのフィードバックに基づいて2回目、さらには3回目の試行を行う機会があります。

上の評価グラフからわかるように、Claude-3.7-Sonnet-thinkingのようなトップモデルは、多ターンインタラクションで非常に優れたパフォーマンスを発揮し、スコアは一貫して高いままです。対照的に、GPT-4o-miniのような一部のモデルは、最初のラウンドでは許容できるパフォーマンスを発揮しますが、その後の修正能力は限られているようで、スコアは上昇するどころか低下しています。この違いこそが、Meeseeksが明らかにしたいこと、つまり優れたAIは賢いだけでなく、学習と修正にも長けている必要があるということです。

なぜMeeseeksは重要なのか？

今日の急速に発展するAI技術において、単に「より大きく」「より広い知識を持つ」モデルを追求するだけではもはや十分ではありません。私たちが必要としているのは、人間と正確に協調できるツールです。Meeseeksの登場は、少なくとも2つの大きな利点をもたらします。

客観的で測定可能な基準: 「もっと良く書いて」のような曖昧な指示を捨て、全ての評価項目が客観的に判断できるため、評価結果がより正確で信頼できるものになります。
モデル開発の方向性を示す: 難易度の高いテストケースを通じて、Meeseeksは異なるモデル間のギャップを効果的に広げることができます。開発者は、自社のモデルがどの部分で不足しているかを明確に確認し、的を絞った最適化を行うことができます。

技術的原則の簡単な分析

MeeseeksがAIの回答が準拠しているかどうかを自動的に判断する方法に興味があるかもしれません。これは、一連の成熟した技術に基づいています。

レベル1の能力評価では、**自然言語処理（NLP）**技術を使用してユーザーの指示を解析し、その核心的な意図と構造要件を特定します。
レベル2の能力評価では、テキスト分析アルゴリズムを使用して、生成されたコンテンツが文字数やスタイルなどの制約に準拠しているかどうかを確認します。
最も複雑なレベル3では、正規表現などのツールを利用して、禁止されている単語が含まれているか、特定の執筆手法に準拠しているかなどを正確に確認します。

Meeseeksを自分で試してみたいですか？

Meeseeksはオープンソースプロジェクトであり、どの開発者や研究者も自分のモデルを評価するために使用できます。興味のある方は、以下のリンクから詳細情報を確認できます。

GitHubリポジトリ: https://github.com/ADoublLEN/Meeseeks
Hugging Faceデータセット: https://huggingface.co/datasets/meituan/Meeseeks

要するに、Meeseeksは単なる新しい評価ツールではありません。AI開発の新しい方向性、つまり「博識」の追求から「正確さ」と「従順さ」の追求への転換を表しています。AIモデルが間違いからより良く理解し、従い、学ぶ方法を学ぶとき、それらは私たちの仕事と生活において真に信頼できるパートナーになることができます。

よくある質問（FAQ）

Q1: Meeseeksと他のベンチマークとの違いは何ですか？

A1: 主な違いは多ターンエラー修正メカニズムにあります。従来の評価はほとんどが「一度きり」ですが、Meeseeksはモデルが間違いを犯した後に具体的なフィードバックを提供し、修正を求めることができます。これにより、モデルの学習能力と適応能力をより現実的に評価できます。さらに、その評価基準は非常に客観的で、難易度も高く設計されているため、トップモデル間の微妙な違いを効果的に区別できます。

Q2: なぜ「多ターンエラー修正」はAIモデルにとってそれほど重要なのでしょうか？

A2: なぜなら、現実世界の人間とコンピュータのインタラクションは、継続的なコミュニケーションと修正のプロセスだからです。ユーザーが一度で完璧な指示を出すことはめったになく、AIも同様です。フィードバックに基づいて自分自身を調整する方法を知っているモデルは、「一度きりの取引」しかできないモデルよりもはるかに実用的です。この能力は、AIが「クエリツール」から「インテリジェントコラボレーター」に進化するための鍵です。

Q3: この評価フレームワークはオープンソースですか？誰でも使用できますか？

A3: はい、Meeseeksプロジェクトは完全にオープンソースです。研究者や開発者は、GitHubでそのコードに自由にアクセスし、Hugging Faceでそのデータセットをダウンロードして、独自の言語モデルをテストおよび検証できます。

Featured Partners

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

A …

tool

AIモデル描画能力対決：トップ9 LLMによるSVG生成ベンチマーク

大規模言語モデルが「ビジュアルコード」に挑戦し始めたとき、真の勝者は誰なのか？この記事では、Claude Sonnet 4.5、GPT-5.1、Gemini 3.0など9つのトップAIモデルのSVG生成ベンチマークを詳細に解析し、30のクリエイティブなプロンプトでのパフォーマンスを探り、これが開発者やデザイナーにとって何を意味するのかを分析します。コードとアートの交差点 PythonやJavaScriptを書くのが得意な人工知能が、「絵を描け」と言われたらどうなるか想像したことはありますか？ここで言っているのは、Midjourneyのようにピクセル画像を生成することではなく、SVG（スケーラブル・ベクター・グラフィックス）コードを書くことです。これは、数学者に数式を書いて猫を描かせるようなもので、狂っているように聞こえますが、これこそが現在のAI分野で最も興味深い戦場の一つなのです。最近、「LLM SVG Generation Benchmark」というベンチマークが広く注目を集めました。このテストは、現在市場で最も強力な9つのAIモデルを集め、30の極めてクリエイティブなSVG生成指示に挑戦させたものです。これは単に誰のコードが正しいかをテストするだけでなく、これらのモデルが「空間推論」と「視覚的想像力」を備えているかをテストするものでもあります。この対決の参加者リストは、Anthropic、OpenAI、GoogleからxAI、Alibabaなどのテック大手による最新の傑作を含んだ、まさにドリームチームと言えます。出場選手紹介：2025年のトップ戦力このベンチマークリストは、AIモデルの反復速度が驚くほど速いというメッセージを伝えています。現在の主要な大規模言語モデル（LLM）の最高水準を代表するこれら9人の選手を詳しく見てみましょう： Claude Sonnet 4.5 (Anthropic)：厳格なコードロジックで知られていますが、今回のアップグレード版はグラフィックロジックでも優位性を維持できるでしょうか？ Claude Opus 4.5 (Anthropic)：Anthropicのフラッグシップとして、理論上、複雑な指示を処理する際により繊細なパフォーマンスを発揮するはずです。 Grok Code Fast 1 (xAI)：314BパラメータのMoE（混合エキスパート）アーキテクチャを擁し、速度とコード生成に重点を置いた、イーロン・マスク率いるxAIの重要な戦力です。 Gemini 2.5 Pro (Google)：マルチモーダル理解において常に優れたパフォーマンスを発揮してきたGoogleの主力モデルです。 Gemini 3.0 Pro Preview (Google)：これはGoogleの次世代のプレビュー版であり、画期的なアーキテクチャの改善があるか期待させます。 DeepSeek V3.2-Exp (685B/37B MoE)：オープンソースコミュニティからの強力な挑戦者であり、膨大なパラメータ数は複雑な世界の理解力を示唆しています。 GLM-4.6 (Zhipu AI, 355B/32B MoE)：Zhipu AIの最新のイテレーションであり、コード分野における中国語圏モデルの競争力を示しています。 Qwen3-VL-235B-A22B-Thinking (Alibaba)：Alibaba Cloudの通義千問（Qwen）シリーズで、特に「Thinking」と表記されており、グラフィック生成に不可欠な思考の連鎖（CoT）プロセスが強化されていることを示唆しています。 GPT-5.1 (OpenAI)：市場のベンチマークとして、GPTシリーズの更新は常に注目の的であり、バージョン5.1は創造性において確実に向上しているはずです。なぜSVG生成はそんなに難しいのか？画像を生成することの何が難しいのか、と問うかもしれません。DALL-Eはずっと前にそれをやってのけたではないか、と。ここには重要な違いがあります。DALL-EやStable Diffusionのようなモデルが生成するのは「ピクセル」であり、適切な場所に色を塗りつぶせばよいのです。しかし、LLMによるSVG生成は「コード」を書くことです。モデルは頭の中でX/Y座標系を構築し、すべての曲線のベジェパラメータ（Bezier curves）を正確に計算し、レイヤーの重なり順のロジックを理解しなければなりません。これは目隠しをしてパズルをするようなものです。モデルは自分が描いたものを見ることができず、XML構文の理解と空間ロジックの推論だけに頼って「盲目的に描く」しかありません。モデルに空間の概念がなければ、描かれた猫の耳がお腹に生えていたり、円が奇妙な多角形になってしまったりする可能性があります。このベンチマークでは30のクリエイティブなプロンプトが使用されました。つまり、お題は単純な「赤い円を描け」ではなく、複雑なシーンの説明、抽象的な概念、あるいは精密な幾何学的構造を必要とする図形が含まれている可能性があります。これは構文の正しさだけでなく、物理的な世界の形状に対するモデルの認識も試されます。各陣営の技術的攻防今回のベンチマークでは、いくつかの興味深い技術的トレンドを観察することができます。 MoEアーキテクチャの台頭リストの中のGrok、DeepSeek、GLMなどのモデルは、MoE（混合エキスパート）アーキテクチャであることを明確に示しています。これは、モデル内部に異なるタイプのタスクを処理する「専門家」がいることを意味します。SVGを描く際、幾何計算を担当する専門家と、配色を担当する別の専門家がいるかもしれません。この分業方式は、計算効率を維持しながら、出力の精度を向上させることが理論的に可能です。「思考」能力の導入 Qwen3の名前に「Thinking」が含まれているのは非常に興味深いです。これは、モデルが最終的なコードを出力する前に、内部で思考の連鎖（Chain of Thought）による推論を行うことを表している可能性があります。精密な計算を必要とするSVGのようなタスクでは、モデルに「描く前に考えさせる」ことで、座標のずれという恥ずかしい状況を大幅に減らすことができます。クローズドソースとオープンソースのせめぎ合い GPT-5.1とClaude 4.5はクローズドソースモデルの頂点を表しており、通常は大量の人間によるフィードバック強化学習（RLHF）を経ており、人間の美意識を満足させる方法をよりよく知っています。一方、DeepSeekやQwenなどのモデルはオープンウェイトやオープンソースコミュニティの力を表しており、パラメータ数やアーキテクチャの革新において、より大胆であることが多いです。開発者とデザイナーはどう選ぶべきか？このベンチマークリストを前に、実際のワークフローにどのように適用すべきでしょうか？

Dec 2, 2025 Read →

金 …

tool

金メダルだけじゃない：Google DeepMindがIMO-Benchを発表、AI数学的推論能力の新たな基準を確立

Geminiモデルが国際数学オリンピック（IMO）で金メダル基準を達成した後、Google DeepMindは正式にIMO-Benchをリリースしました。これは単なる評価ツールではなく、AIを「問題解決」から「深層推論」へと推進する新しい基準であり、AI分野をより堅牢で創造的な数学的推論の新時代へと導くことを目指しています。 AI数学コンテストで金メダルを獲得した後、私たちは何に注目すべきか？ 2025年7月、人工知能分野は歴史的な瞬間を迎えました。Google DeepMindの先進的なGeminiモデルは、Deep Think技術を搭載し、国際数学オリンピック（IMO）で金メダル基準を達成しました。これは間違いなくAI開発における大きなマイルストーンです。しかし、この勝利の意義は、IMOレベルの難問で優れた結果を出すことだけにとどまりません。真の目標は、深層で堅牢な数学的推論を行うことができるシステムを構築することです。結局のところ、正しい答えを出すだけでは不十分であり、「なぜそうなのか」を理解し証明することが真の知能への鍵となります。この理念に基づき、EMNLP 2025会議で、Google DeepMindはIMO-Bench—一連の高度な推論ベンチマーク—を盛大に発表しました。これはGeminiの金メダル獲得の道のりで中心的な役割を果たしただけでなく、数学的推論能力においてAIコミュニティ全体に新たな扉を開くことを目指しています。では、IMO-Benchとは一体何なのか？簡単に言えば、IMO-BenchはAIモデルの数学的能力を評価するために特別に設計された「テスト問題」のセットです。しかし、これは普通の試験ではありません。すべての問題は、10人のIMO金メダリストと5人の銀メダリストからなる専門家パネルによって厳格に審査されています。 IMOの問題が難しいのは、厳密な多段階推論だけでなく、公式の枠組みを超えた創造性も必要とされるからです。これこそがIMO-Benchの核心です。AIが答えを計算できるかどうかだけでなく、AIが「考える」ことができるかどうかを重視しています。 IMO-Benchは主に3つの部分で構成されており、それぞれに重点があります。 IMO-AnswerBench：400問を含む大規模テストで、モデルが「正しい答えを出す」能力を評価することに焦点を当てています。 IMO-ProofBench：60問を含む高度な評価で、モデルが「厳密な証明プロセスを作成する」能力を検証することを目的としています。 IMO-GradingBench：1000のケースを含み、「長文の回答を自動的に評価する」技術の進歩を促進するために使用されます。このベンチマークのリリースは、コミュニティの焦点を単純な「最終的な答え」から、より重要な「証明プロセス」自体に移し、それによってAIの推論能力をより厳密に評価することを目指しています。標準的な答えを超えて：IMO-ProofBenchの挑戦これまで、私たちはAIの数学的能力を、答えの正確さだけで評価することがよくありました。しかし、これだけでは不十分です。真に数学を理解しているシステムは、厳密で有効な数学的議論を構築できる必要があります。この目的のために、IMO-BenchはIMO-ProofBenchを立ち上げ、評価を新たなレベルに引き上げました。このベンチマークには、証明を必要とする60の問題が含まれており、2つのサブセットに分けられています。基本セット（Basic）：IMOの予選から中程度の難易度の問題までをカバーし、モデルの初期開発段階での推論能力を評価するために使用されます。高度なセット（Advanced）：新しい、非常に挑戦的な問題を含み、実際のIMO試験の最高難易度をシミュレートします。テスト結果は、異なるモデル間のパフォーマンスに大きな違いがあることを示しています。基本セットでは、Gemini Deep Think（IMO Gold）が89.0%の高得点を達成しましたが、ほとんどのモデルは60%未満でした。より挑戦的な高度なセットでは、その差はさらに顕著です。Gemini以外のすべてのモデルは25%未満のスコアでしたが、Gemini Deep Thinkは現在の最先端である**65.7%**を達成しました。この成果は大きな飛躍ですが、最も強力なモデルでさえ、完璧な数学的推論への道はまだ長いことを示しています。 AIはAIの答案を採点できるのか？ProofAutoGraderの誕生人間の専門家による評価は数学的証明を検証するためのゴールドスタンダードですが、その高い時間と人件費は大規模な研究の実現可能性を制限します。この問題を解決するために、DeepMindチームはGemini 2.5 Proをベースにした自動採点ツールであるProofAutoGraderを開発しました。その動作方法は、問題の説明、候補となる解答、参照解答、および具体的な採点ガイドラインを提供し、AIが証明プロセスを自動的に採点するというものです。結果は期待できるものでした。14の公開モデルをテストした際、ProofAutoGraderの採点結果は人間の専門家の採点結果と高い相関を示し、ピアソン相関係数は基本セットと高度なセットでそれぞれ驚異的な0.96と0.93に達しました。これは、AIによる自動採点が実現可能であるだけでなく、かなり信頼できることを意味し、将来の大規模でスケーラブルなAI推論研究への道を開きます。リーダーボードから見るAI推論の真のギャップモデル高度な証明ベンチブレイクダウンクエリ日付新規 IMO 2024† USAMO 2025 Gemini Deep Think (IMO Gold) 65.7% 61.1% 2025-08-02 76.2% 69.0% Gemini Deep Think (IMO lite) 37.6% 31.7% 2025-08-20 40.5% 52.4% Gemini 2.5 Pro with (Huang & Yang, 2025) 24.8% 17.5% 2025-07-14 19.1% 52.4% Grok 4 (heavy) 23.3% 11.1% 2025-07-12 7.1% 76.2% o3 20.5% 15.1% 2025-08-04 4.8% 52.4% GPT-5 20% 15.9% 2025-09-18 33.3% 19.0% Grok 4 18.6% 17.5% 2025-08-20 16.7% 23.8% Gemini 2.5 Pro 17.6% 15.9% 2025-08-04 7.1% 33.3% o4-mini (high reasoning) 11.4% 8.7% 2025-08-04 7.1% 23.8% Kimi-K2-Instruct 7.1% 4% 2025-08-21 2.4% 21.4% Qwen3-235B 5.2% 7.1% 2025-08-21 0.0% 4.8% Claude Sonnet 4 4.8% 6.4% 2025-09-17 2.4% 2.4% DeepSeek V3 4.3% 6.3% 2025-09-16 2.4% 0.0% DeepSeek R1 3.8% 6.4% 2025-09-16 0.0% 0.0% Claude Opus 4 2.9% 0.0% 2025-08-04 2.4% 11.9% IMO-Benchのリーダーボードは興味深い現象を明らかにしています。一部のモデルには「過学習」の問題がある可能性があります。

Nov 5, 2025 Read →

L …

tool

LLMエージェント中間試験：VitaBenchが示す厳しい現実、トップモデルの成功率はわずか30％？

大規模言語モデル（LLM）を搭載したAIエージェントが万能だと思っていた矢先、美団のLongCatチームが発表した最新のベンチマーク「VitaBench」が業界全体に冷や水を浴びせました。この「最難関の模擬試験」とも言えるテストは、トップクラスのAIモデルでさえ、複雑な現実世界のタスクを処理する際の成功率が驚くほど低いことを示しています。一体何が起こっているのでしょうか？ AIエージェントが研究室から出ると、現実に打ちのめされる近年、大規模言語モデル（LLM）を搭載したAIエージェントは、間違いなくテクノロジー業界で最もホットな話題です。私たちは、将来的には口頭で指示するだけで、AIアシスタントがレストランの予約、旅行の計画、配達の手配など、あらゆる大小の雑事を処理してくれる未来を想像しています。素晴らしいと思いませんか？しかし、現実は常に少し厳しいものです。現在のAIエージェントは、単純で閉鎖的な環境ではうまく機能するかもしれませんが、それは教習所の練習コースで運転するようなもので、すべてが順調に進みます。しかし、現実世界の交差点、つまり予期せぬ状況、曖昧な指示、複数のタスクが入り混じる複雑な環境に置かれたとき、彼らはまだうまく対処できるでしょうか？答えは少しがっかりさせるかもしれません。過去の多くの評価ベンチマークは、問題を単純化しすぎており、実生活の複雑さを真に反映することができませんでした。これは、一次方程式を使って数学者の能力を評価するようなもので、真の実力をまったく測定できていません。 VitaBench：AIエージェントのための「究極の試練の場」この問題を解決するために、美団のLongCatチームはVitaBenchを立ち上げました。これは、実世界のアプリケーションにおけるLLMエージェントのパフォーマンスを評価するために特別に設計された、新しい高難易度のベンチマークです。 VitaBenchは、非常にリアルな「生活シミュレーター」と考えることができます。もはや机上の空論ではなく、AIを私たちが最もよく知る3つの主要な生活シーンに直接投入します。フードデリバリー店舗での消費オンライン旅行サービスこのシミュレートされた環境はどれほど複雑なのでしょうか？店舗情報の照会、予約、注文から支払いに至るまで、考えられるほぼすべての操作を網羅する、最大66種類のツールを統合しています。単一のタスクだけでなく、「クロスシナリオ」の連続的な挑戦 VitaBenchの中核的な課題は、そのタスク設計にあります。300の単一シナリオのタスクだけでなく、**100の非常に挑戦的な「クロスシナリオタスク」**も設計されています。これはどういう意味でしょうか？たとえば、実際のユーザーリクエストは次のようになるかもしれません。「川の景色が見えるホテルを予約して、チェックインの夜に、ホテルの近くで評価が高く、辛くなく、予算200ドルのレストランを探してください。」このタスクでは、AIエージェントは次のことを行う必要があります。複雑な意図の理解：ホテルを予約するだけでなく、レストランも予約する必要があり、両者には関連性があります。時空を超えた推論：チェックイン日、夕食の時間、ホテルとレストランの地理的な関係を処理する必要があります。ツールの柔軟な使用：まず「ホテル予約ツール」を使用し、その結果に基づいて「レストラン検索ツール」を使用する必要があります。積極的な明確化：ユーザーの指示が曖昧な場合、AIは「レストランの料理の種類はどのようになさいますか？」など、積極的に質問する必要があります。動的な意図の追跡：複数回の対話の中で、ユーザーが心変わりする可能性があり、AIはそれに追随できる必要があります。正直なところ、これは人間にとっても少し複雑です。ましてやAIにとってはなおさらです。残酷な成績表：トップAIも次々と「脱落」では、この究極の試練で、今日の最も強力なAIモデルはどのように機能したのでしょうか？結果はかなり衝撃的です。思考モデルランクモデル平均@4 クロスシナリオ（合格）クロスシナリオ（合格@4）シングルシナリオ（平均@4） 1 03 (high) 30.0 6.0 61.0 53.5 2 Al Claude-4.1-Opus (w/ thinking) 29.0 56.0 6.0 47.5 3 MLongCat-Flash-Thinking 24.3 54.0 3.0 42.3 4 Gemini-2.5-Pro 23.5 53.0 5.0 49.0 5 A Claude-4-Sonnet (w/ thinking) 23.0 51.0 6.0 46.0 6 GPT-5 (high) 22.8 51.0 3.0 54.0 7 Z GLM-4.5 (w/ thinking) 22.8 48.0 2.0 44.5 8 04-mini (high) 19.5 49.0 1.0 44.5 9 Qwen3-235B-A22B-Thinking-2507 18.8 45.0 2.0 44.0 10 Doubao-Seed-1.6-Thinking 17.0 42.0 1.0 30.3 11 DeepSeek-R1-0528 14.5 39.0 0.0 40.3 12 Gemini2.5-Flash (think on) 5.3 24.0 0.0 32.0 13 Qwen3-32B (w/ thinking) 5.0 47.0 3.0 22.8 非思考モードランクモデル平均@4 クロスシナリオ（合格）クロスシナリオ（合格@4）シングルシナリオ（平均@4） 1 Al Claude-4.1-Opus (w/o thinking) 21.8 47.0 3.0 46.0 2 Al Claude-4-Sonnet (w/o thinking) 21.3 49.0 4.0 39.0 3 LongCat-Flash-Chat 20.3 45.0 2.0 39.5 4 GLM-4.5 (w/o thinking) 20.0 47.0 1.0 45.8 5 Qwen3-Max 18.5 3.0 47.0 37.2 6 DeepSeek-V3.2-Exp (w/o thinking) 17.7 2.0 41.0 36.2 7 DeepSeek-V3.1 (w/o thinking) 16.3 40.0 1.0 34.0 8 K Kimi-K2-0905 15.5 39.0 2.0 35.3 9 Qwen3-235B-A22B-Instruct-2507 14.3 0.0 38.0 34.3 10 GPT-4.1 13.8 0.0 35.0 37.8 11 Doubao-Seed-1.6 10.5 29.0 0.0 37.8 12 Gemini-2.5-Flash (think off) 5.8 17.0 1.0 31.0 13 Qwen3-32B (w/o thinking) 4.0 0.0 12.0 16.5 14 GPT-5 (minimal) 4.0 9.0 0.0 30.0 15 DeepSeek-V3-0324 3.8 12.0 0.0 25.3 VitaBenchが公開したリーダーボードによると、データは大きなパフォーマンスのギャップを示しています。

Oct 21, 2025 Read →