AIコーディング能力対決：TencentのAutoCodeBenchを徹底解説し、最強のAIモデルを明らかに！

AIのコーディング能力はますます強力になっていますが、真の王者は誰なのかをどうやって知ることができるのでしょうか？TencentのHunyuanが発表したAutoCodeBenchは、20のプログラミング言語をカバーする、新しく難易度の高い評価ベンチマークです。この記事では、その技術的原則を深く掘り下げ、このハードコアなテストにおけるClaude 4やGPT-4などのトップモデルの真のパフォーマンスを明らかにします。

近年、大規模言語モデル（LLM）のコード生成能力は飛躍的に向上し、主要なテクノロジー企業の戦場となっています。単純なコードスニペットの補完から関数全体の作成まで、AIは開発者にとって不可欠なアシスタントとなっています。しかし、問題は、コーディングが得意だと主張するAIモデルが市場にたくさんある中で、その真の実力を客観的に評価するにはどうすればよいかということです。

過去の評価ベンチマークは、主に手作業による注釈に依存しており、時間と労力がかかるだけでなく、複数のプログラミング言語やさまざまな問題の難易度に拡張することも困難でした。より一般的な状況は、多くのテストセットがPythonに過度に集中しており、他の言語の評価は深くも難しくもなく、トップモデル間の微妙な違いを真に区別することが困難でした。

これらの問題点を解決するために、Tencent Hunyuanチームは包括的なソリューションであるAutoCodeBenchを発表しました。これは単なる評価セットではなく、AIコーディング能力のためのより困難で実用的で公正な競争の場を提供するために設計された、完全な自動化ワークフローです。

では、AutoCodeBenchとは一体何なのでしょうか？

簡単に言うと、AutoCodeBenchは、大規模言語モデルのコード能力を評価するために特別に設計されたベンチマークテストセットです。AIのための「プログラミングオリンピック」のようなものです。

このテストセットには、20の異なるプログラミング言語に均等に分散された3,920の慎重に設計された問題が含まれています。これは、Python、Java、C++などの主流言語であろうと、Elixir、Ruby、Scalaなどの比較的新しい言語であろうと、AIは真の実力を発揮する必要があることを意味します。

AutoCodeBenchの核となる特徴は、高い難易度、実用性、多様性であり、複雑な現実世界のプログラミングタスクを処理する際のモデルのパフォーマンスを効果的に測定します。

AutoCodeBenchのユニークな点：その背後にあるテクノロジーを解き明かす

新しい評価セットを作成することがそれほど大したことではないと思うかもしれません。AutoCodeBenchの真の力は、コード評価のゲームを根本的に変える、その基盤となる自動化テクノロジーにあります。

AutoCodeGen：AIにAIのための問題を作成させる

従来の評価方法は「人間が問題を作成し、AIがそれに答える」というものでした。しかし、AutoCodeBenchは革新的なAutoCodeGenワークフローを使用しており、これは「AIが問題を作成し、AIがそれに答える」と見なすことができます。

このプロセスでは、LLMが安全な「サンドボックス」環境と対話します。まず、LLMはテスト入力データを動的に生成し、次にこのデータをサンドボックスに送信して実行し、対応する正しい出力を取得します。このようにして、標準的な回答付きの高品質なコード問題を自動的かつ大規模に生成できます。この「リバースエンジニアリング」アプローチによる問題構築は、問題の難易度と実用性を保証し、単純で簡単に解決できる問題を超えています。

MultiLanguageSandbox：公正なクロスランゲージジャッジ

20の言語を評価するには、20すべてを理解して実行できるジャッジが必要です。MultiLanguageSandboxは、この役割を果たす重要なサービスです。

これは、30を超えるプログラミング言語のコンパイルと実行をサポートする、強力で安全かつ効率的な多言語コード実行サンドボックスです。モデルがコードを生成した後、その正しさとパフォーマンスを検証するためにこのサンドボックスに送信されます。これは、複数の言語に堪能なジャッジのように、競争の公正さと正確さを保証します。

1つだけじゃない！AutoCodeBenchファミリーの全貌

さまざまな評価ニーズに応えるため、AutoCodeBenchはいくつかの異なるバージョンを生み出し、完全な評価ツールシリーズを形成しています。

AutoCodeBench：これはメインバージョンで、3,920すべての問題を含み、最も包括的な評価を提供します。
AutoCodeBench-Lite：30を超えるモデルを包括的にテストした後、研究チームは少なくとも2つの異なるモデルによって正常に解決された1,586の問題を選択して、この「ライトバージョン」を作成しました。その利点は、トップモデル間のパフォーマンスの違いをより効果的に拡大し、誰が一貫して優れたパフォーマンスを発揮するかを明確に確認できることです。
AutoCodeBench-Complete：このバージョンは、Liteバージョンから1,000の問題を選択し、「3ショットプロンプティング」方式を使用して、特定の命令ファインチューニングを受けていない「ベースモデル」の可能性を具体的に評価します。

王者が明らかに：コード能力の支配者は誰か？

これだけ話した後、誰もが最も気になるのは結果です。では、AutoCodeBenchという「試金石」で、どのモデルが最高のパフォーマンスを発揮したのでしょうか？公式のPass@1（初回成功率）パフォーマンスデータを見ると、答えは非常に明確です。

全体として、AnthropicのClaude Opus 4（20250514バージョン）が、現在最大の勝者であることは間違いありません。「推論モード」と「非推論モード」の両方で、平均スコアがそれぞれ**52.4%と50.9%**でトップにランクされています。

これは何を意味するのでしょうか？複雑な問題を理解し、正しいコードを生成するClaude Opus 4の総合的な能力が、現在リードしていることを意味します。

トップモデルの階層分布

第一階層：Claude Opus 4とClaude Sonnet 4は、常にトップ2を占めており、その手ごわい強さを示しています。僅差でGrok-4とo3-highが続いており、これらも複数の指標で好成績を収めています。
第二階層：GPT-4.1、Gemini 2.5 Pro、DeepSeek-R1-0528などのモデルも高い競争力を示しており、特定の言語では優れたパフォーマンスを発揮しているものもあります。

特定言語のハイライト

平均スコアを見るだけでは不十分です。本当の詳細は、各プログラミング言語のパフォーマンスに隠されています。

JavaとElixir：Claude Opus 4は、これら2つの言語で非常に優れたパフォーマンスを発揮し、特に推論モードのElixirでは、驚異的な80.3%に達しました。
C++：Grok-4（48.7%）とGPT-4.1（46.8%）は、C++のような伝統的で複雑な言語で優れたパフォーマンスを発揮しました。
C#：Gemini 2.5 Proは、C#で70.9%という高スコアを達成し、Microsoftテクノロジーエコシステムにおけるその可能性を示しました。
Python：興味深いことに、最も一般的な言語であるPythonでは、o4-mini（42.3%）とGrok-4（41.2%）がわずかに優位に立っており、これは評価の包括性も示しています。平均スコアが最も高いモデルが、必ずしもすべての個別イベントでチャンピオンであるとは限りません。

この詳細な成績表は、各モデルの長所と短所を示すだけでなく、開発者がツールを選択する際の貴重な参考資料にもなります。

結論：AIコード評価の未来

AutoCodeBenchの登場は、AIコード能力の評価に新たな基準を打ち立てたことは間違いありません。自動化され、難易度が高く、多様な設計を通じて、過去の評価方法の多くの欠点を解決し、現実世界の開発シナリオに近いテストの場を提供しました。

このようなベンチマークテストは、単なる成績表ではありません。AI分野全体を前進させる触媒のようなものです。モデルがこのような厳しいテストで好成績を収めることができるということは、ソフトウェア開発タスクを支援したり、さらには独立して完了したりする道を着実に歩んでいることを意味します。将来的には、この競争でさらに多くの強力なAIモデルが登場することを楽しみにしています。

よくある質問（FAQ）

Q1：AutoCodeBenchとは一体何ですか？ A：Tencent Hunyuanチームが発表した大規模なコード能力評価ベンチマークです。20のプログラミング言語にまたがる3,920の難易度の高い問題が含まれており、主要な言語モデルのコード生成能力を包括的かつ客観的に評価するように設計されています。

Q2：AutoCodeBenchと他のコード評価セットとの違いは何ですか？ A：主な違いは3つあります。1）自動生成：手作業で作成するのではなく、サンドボックスとのAI対話を通じて問題を自動的に生成するため、より効率的でスケーラブルです。2）高い難易度と実用性：問題の設計がより複雑で、現実世界の開発の課題をよりよく反映しています。3）多言語のバランス：Pythonに過度に偏る問題を回避し、20の言語を均等にカバーしています。

Q3：最新のAutoCodeBenchテストで、どのAIモデルが最高のパフォーマンスを発揮しましたか？ A：公開されているデータによると、**Claude Opus 4（20250514バージョン）**が総合的に最高のパフォーマンスを発揮し、推論モードと非推論モードの両方で1位にランクされ、現在コード能力のリーダーとなっています。

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

A …

tool

AIモデル描画能力対決：トップ9 LLMによるSVG生成ベンチマーク

大規模言語モデルが「ビジュアルコード」に挑戦し始めたとき、真の勝者は誰なのか？この記事では、Claude Sonnet 4.5、GPT-5.1、Gemini 3.0など9つのトップAIモデルのSVG生成ベンチマークを詳細に解析し、30のクリエイティブなプロンプトでのパフォーマンスを探り、これが開発者やデザイナーにとって何を意味するのかを分析します。コードとアートの交差点 PythonやJavaScriptを書くのが得意な人工知能が、「絵を描け」と言われたらどうなるか想像したことはありますか？ここで言っているのは、Midjourneyのようにピクセル画像を生成することではなく、SVG（スケーラブル・ベクター・グラフィックス）コードを書くことです。これは、数学者に数式を書いて猫を描かせるようなもので、狂っているように聞こえますが、これこそが現在のAI分野で最も興味深い戦場の一つなのです。最近、「LLM SVG Generation Benchmark」というベンチマークが広く注目を集めました。このテストは、現在市場で最も強力な9つのAIモデルを集め、30の極めてクリエイティブなSVG生成指示に挑戦させたものです。これは単に誰のコードが正しいかをテストするだけでなく、これらのモデルが「空間推論」と「視覚的想像力」を備えているかをテストするものでもあります。この対決の参加者リストは、Anthropic、OpenAI、GoogleからxAI、Alibabaなどのテック大手による最新の傑作を含んだ、まさにドリームチームと言えます。出場選手紹介：2025年のトップ戦力このベンチマークリストは、AIモデルの反復速度が驚くほど速いというメッセージを伝えています。現在の主要な大規模言語モデル（LLM）の最高水準を代表するこれら9人の選手を詳しく見てみましょう： Claude Sonnet 4.5 (Anthropic)：厳格なコードロジックで知られていますが、今回のアップグレード版はグラフィックロジックでも優位性を維持できるでしょうか？ Claude Opus 4.5 (Anthropic)：Anthropicのフラッグシップとして、理論上、複雑な指示を処理する際により繊細なパフォーマンスを発揮するはずです。 Grok Code Fast 1 (xAI)：314BパラメータのMoE（混合エキスパート）アーキテクチャを擁し、速度とコード生成に重点を置いた、イーロン・マスク率いるxAIの重要な戦力です。 Gemini 2.5 Pro (Google)：マルチモーダル理解において常に優れたパフォーマンスを発揮してきたGoogleの主力モデルです。 Gemini 3.0 Pro Preview (Google)：これはGoogleの次世代のプレビュー版であり、画期的なアーキテクチャの改善があるか期待させます。 DeepSeek V3.2-Exp (685B/37B MoE)：オープンソースコミュニティからの強力な挑戦者であり、膨大なパラメータ数は複雑な世界の理解力を示唆しています。 GLM-4.6 (Zhipu AI, 355B/32B MoE)：Zhipu AIの最新のイテレーションであり、コード分野における中国語圏モデルの競争力を示しています。 Qwen3-VL-235B-A22B-Thinking (Alibaba)：Alibaba Cloudの通義千問（Qwen）シリーズで、特に「Thinking」と表記されており、グラフィック生成に不可欠な思考の連鎖（CoT）プロセスが強化されていることを示唆しています。 GPT-5.1 (OpenAI)：市場のベンチマークとして、GPTシリーズの更新は常に注目の的であり、バージョン5.1は創造性において確実に向上しているはずです。なぜSVG生成はそんなに難しいのか？画像を生成することの何が難しいのか、と問うかもしれません。DALL-Eはずっと前にそれをやってのけたではないか、と。ここには重要な違いがあります。DALL-EやStable Diffusionのようなモデルが生成するのは「ピクセル」であり、適切な場所に色を塗りつぶせばよいのです。しかし、LLMによるSVG生成は「コード」を書くことです。モデルは頭の中でX/Y座標系を構築し、すべての曲線のベジェパラメータ（Bezier curves）を正確に計算し、レイヤーの重なり順のロジックを理解しなければなりません。これは目隠しをしてパズルをするようなものです。モデルは自分が描いたものを見ることができず、XML構文の理解と空間ロジックの推論だけに頼って「盲目的に描く」しかありません。モデルに空間の概念がなければ、描かれた猫の耳がお腹に生えていたり、円が奇妙な多角形になってしまったりする可能性があります。このベンチマークでは30のクリエイティブなプロンプトが使用されました。つまり、お題は単純な「赤い円を描け」ではなく、複雑なシーンの説明、抽象的な概念、あるいは精密な幾何学的構造を必要とする図形が含まれている可能性があります。これは構文の正しさだけでなく、物理的な世界の形状に対するモデルの認識も試されます。各陣営の技術的攻防今回のベンチマークでは、いくつかの興味深い技術的トレンドを観察することができます。 MoEアーキテクチャの台頭リストの中のGrok、DeepSeek、GLMなどのモデルは、MoE（混合エキスパート）アーキテクチャであることを明確に示しています。これは、モデル内部に異なるタイプのタスクを処理する「専門家」がいることを意味します。SVGを描く際、幾何計算を担当する専門家と、配色を担当する別の専門家がいるかもしれません。この分業方式は、計算効率を維持しながら、出力の精度を向上させることが理論的に可能です。「思考」能力の導入 Qwen3の名前に「Thinking」が含まれているのは非常に興味深いです。これは、モデルが最終的なコードを出力する前に、内部で思考の連鎖（Chain of Thought）による推論を行うことを表している可能性があります。精密な計算を必要とするSVGのようなタスクでは、モデルに「描く前に考えさせる」ことで、座標のずれという恥ずかしい状況を大幅に減らすことができます。クローズドソースとオープンソースのせめぎ合い GPT-5.1とClaude 4.5はクローズドソースモデルの頂点を表しており、通常は大量の人間によるフィードバック強化学習（RLHF）を経ており、人間の美意識を満足させる方法をよりよく知っています。一方、DeepSeekやQwenなどのモデルはオープンウェイトやオープンソースコミュニティの力を表しており、パラメータ数やアーキテクチャの革新において、より大胆であることが多いです。開発者とデザイナーはどう選ぶべきか？このベンチマークリストを前に、実際のワークフローにどのように適用すべきでしょうか？

Dec 2, 2025 Read →

金 …

tool

金メダルだけじゃない：Google DeepMindがIMO-Benchを発表、AI数学的推論能力の新たな基準を確立

Geminiモデルが国際数学オリンピック（IMO）で金メダル基準を達成した後、Google DeepMindは正式にIMO-Benchをリリースしました。これは単なる評価ツールではなく、AIを「問題解決」から「深層推論」へと推進する新しい基準であり、AI分野をより堅牢で創造的な数学的推論の新時代へと導くことを目指しています。 AI数学コンテストで金メダルを獲得した後、私たちは何に注目すべきか？ 2025年7月、人工知能分野は歴史的な瞬間を迎えました。Google DeepMindの先進的なGeminiモデルは、Deep Think技術を搭載し、国際数学オリンピック（IMO）で金メダル基準を達成しました。これは間違いなくAI開発における大きなマイルストーンです。しかし、この勝利の意義は、IMOレベルの難問で優れた結果を出すことだけにとどまりません。真の目標は、深層で堅牢な数学的推論を行うことができるシステムを構築することです。結局のところ、正しい答えを出すだけでは不十分であり、「なぜそうなのか」を理解し証明することが真の知能への鍵となります。この理念に基づき、EMNLP 2025会議で、Google DeepMindはIMO-Bench—一連の高度な推論ベンチマーク—を盛大に発表しました。これはGeminiの金メダル獲得の道のりで中心的な役割を果たしただけでなく、数学的推論能力においてAIコミュニティ全体に新たな扉を開くことを目指しています。では、IMO-Benchとは一体何なのか？簡単に言えば、IMO-BenchはAIモデルの数学的能力を評価するために特別に設計された「テスト問題」のセットです。しかし、これは普通の試験ではありません。すべての問題は、10人のIMO金メダリストと5人の銀メダリストからなる専門家パネルによって厳格に審査されています。 IMOの問題が難しいのは、厳密な多段階推論だけでなく、公式の枠組みを超えた創造性も必要とされるからです。これこそがIMO-Benchの核心です。AIが答えを計算できるかどうかだけでなく、AIが「考える」ことができるかどうかを重視しています。 IMO-Benchは主に3つの部分で構成されており、それぞれに重点があります。 IMO-AnswerBench：400問を含む大規模テストで、モデルが「正しい答えを出す」能力を評価することに焦点を当てています。 IMO-ProofBench：60問を含む高度な評価で、モデルが「厳密な証明プロセスを作成する」能力を検証することを目的としています。 IMO-GradingBench：1000のケースを含み、「長文の回答を自動的に評価する」技術の進歩を促進するために使用されます。このベンチマークのリリースは、コミュニティの焦点を単純な「最終的な答え」から、より重要な「証明プロセス」自体に移し、それによってAIの推論能力をより厳密に評価することを目指しています。標準的な答えを超えて：IMO-ProofBenchの挑戦これまで、私たちはAIの数学的能力を、答えの正確さだけで評価することがよくありました。しかし、これだけでは不十分です。真に数学を理解しているシステムは、厳密で有効な数学的議論を構築できる必要があります。この目的のために、IMO-BenchはIMO-ProofBenchを立ち上げ、評価を新たなレベルに引き上げました。このベンチマークには、証明を必要とする60の問題が含まれており、2つのサブセットに分けられています。基本セット（Basic）：IMOの予選から中程度の難易度の問題までをカバーし、モデルの初期開発段階での推論能力を評価するために使用されます。高度なセット（Advanced）：新しい、非常に挑戦的な問題を含み、実際のIMO試験の最高難易度をシミュレートします。テスト結果は、異なるモデル間のパフォーマンスに大きな違いがあることを示しています。基本セットでは、Gemini Deep Think（IMO Gold）が89.0%の高得点を達成しましたが、ほとんどのモデルは60%未満でした。より挑戦的な高度なセットでは、その差はさらに顕著です。Gemini以外のすべてのモデルは25%未満のスコアでしたが、Gemini Deep Thinkは現在の最先端である**65.7%**を達成しました。この成果は大きな飛躍ですが、最も強力なモデルでさえ、完璧な数学的推論への道はまだ長いことを示しています。 AIはAIの答案を採点できるのか？ProofAutoGraderの誕生人間の専門家による評価は数学的証明を検証するためのゴールドスタンダードですが、その高い時間と人件費は大規模な研究の実現可能性を制限します。この問題を解決するために、DeepMindチームはGemini 2.5 Proをベースにした自動採点ツールであるProofAutoGraderを開発しました。その動作方法は、問題の説明、候補となる解答、参照解答、および具体的な採点ガイドラインを提供し、AIが証明プロセスを自動的に採点するというものです。結果は期待できるものでした。14の公開モデルをテストした際、ProofAutoGraderの採点結果は人間の専門家の採点結果と高い相関を示し、ピアソン相関係数は基本セットと高度なセットでそれぞれ驚異的な0.96と0.93に達しました。これは、AIによる自動採点が実現可能であるだけでなく、かなり信頼できることを意味し、将来の大規模でスケーラブルなAI推論研究への道を開きます。リーダーボードから見るAI推論の真のギャップモデル高度な証明ベンチブレイクダウンクエリ日付新規 IMO 2024† USAMO 2025 Gemini Deep Think (IMO Gold) 65.7% 61.1% 2025-08-02 76.2% 69.0% Gemini Deep Think (IMO lite) 37.6% 31.7% 2025-08-20 40.5% 52.4% Gemini 2.5 Pro with (Huang & Yang, 2025) 24.8% 17.5% 2025-07-14 19.1% 52.4% Grok 4 (heavy) 23.3% 11.1% 2025-07-12 7.1% 76.2% o3 20.5% 15.1% 2025-08-04 4.8% 52.4% GPT-5 20% 15.9% 2025-09-18 33.3% 19.0% Grok 4 18.6% 17.5% 2025-08-20 16.7% 23.8% Gemini 2.5 Pro 17.6% 15.9% 2025-08-04 7.1% 33.3% o4-mini (high reasoning) 11.4% 8.7% 2025-08-04 7.1% 23.8% Kimi-K2-Instruct 7.1% 4% 2025-08-21 2.4% 21.4% Qwen3-235B 5.2% 7.1% 2025-08-21 0.0% 4.8% Claude Sonnet 4 4.8% 6.4% 2025-09-17 2.4% 2.4% DeepSeek V3 4.3% 6.3% 2025-09-16 2.4% 0.0% DeepSeek R1 3.8% 6.4% 2025-09-16 0.0% 0.0% Claude Opus 4 2.9% 0.0% 2025-08-04 2.4% 11.9% IMO-Benchのリーダーボードは興味深い現象を明らかにしています。一部のモデルには「過学習」の問題がある可能性があります。

Nov 5, 2025 Read →

L …

tool

LLMエージェント中間試験：VitaBenchが示す厳しい現実、トップモデルの成功率はわずか30％？

大規模言語モデル（LLM）を搭載したAIエージェントが万能だと思っていた矢先、美団のLongCatチームが発表した最新のベンチマーク「VitaBench」が業界全体に冷や水を浴びせました。この「最難関の模擬試験」とも言えるテストは、トップクラスのAIモデルでさえ、複雑な現実世界のタスクを処理する際の成功率が驚くほど低いことを示しています。一体何が起こっているのでしょうか？ AIエージェントが研究室から出ると、現実に打ちのめされる近年、大規模言語モデル（LLM）を搭載したAIエージェントは、間違いなくテクノロジー業界で最もホットな話題です。私たちは、将来的には口頭で指示するだけで、AIアシスタントがレストランの予約、旅行の計画、配達の手配など、あらゆる大小の雑事を処理してくれる未来を想像しています。素晴らしいと思いませんか？しかし、現実は常に少し厳しいものです。現在のAIエージェントは、単純で閉鎖的な環境ではうまく機能するかもしれませんが、それは教習所の練習コースで運転するようなもので、すべてが順調に進みます。しかし、現実世界の交差点、つまり予期せぬ状況、曖昧な指示、複数のタスクが入り混じる複雑な環境に置かれたとき、彼らはまだうまく対処できるでしょうか？答えは少しがっかりさせるかもしれません。過去の多くの評価ベンチマークは、問題を単純化しすぎており、実生活の複雑さを真に反映することができませんでした。これは、一次方程式を使って数学者の能力を評価するようなもので、真の実力をまったく測定できていません。 VitaBench：AIエージェントのための「究極の試練の場」この問題を解決するために、美団のLongCatチームはVitaBenchを立ち上げました。これは、実世界のアプリケーションにおけるLLMエージェントのパフォーマンスを評価するために特別に設計された、新しい高難易度のベンチマークです。 VitaBenchは、非常にリアルな「生活シミュレーター」と考えることができます。もはや机上の空論ではなく、AIを私たちが最もよく知る3つの主要な生活シーンに直接投入します。フードデリバリー店舗での消費オンライン旅行サービスこのシミュレートされた環境はどれほど複雑なのでしょうか？店舗情報の照会、予約、注文から支払いに至るまで、考えられるほぼすべての操作を網羅する、最大66種類のツールを統合しています。単一のタスクだけでなく、「クロスシナリオ」の連続的な挑戦 VitaBenchの中核的な課題は、そのタスク設計にあります。300の単一シナリオのタスクだけでなく、**100の非常に挑戦的な「クロスシナリオタスク」**も設計されています。これはどういう意味でしょうか？たとえば、実際のユーザーリクエストは次のようになるかもしれません。「川の景色が見えるホテルを予約して、チェックインの夜に、ホテルの近くで評価が高く、辛くなく、予算200ドルのレストランを探してください。」このタスクでは、AIエージェントは次のことを行う必要があります。複雑な意図の理解：ホテルを予約するだけでなく、レストランも予約する必要があり、両者には関連性があります。時空を超えた推論：チェックイン日、夕食の時間、ホテルとレストランの地理的な関係を処理する必要があります。ツールの柔軟な使用：まず「ホテル予約ツール」を使用し、その結果に基づいて「レストラン検索ツール」を使用する必要があります。積極的な明確化：ユーザーの指示が曖昧な場合、AIは「レストランの料理の種類はどのようになさいますか？」など、積極的に質問する必要があります。動的な意図の追跡：複数回の対話の中で、ユーザーが心変わりする可能性があり、AIはそれに追随できる必要があります。正直なところ、これは人間にとっても少し複雑です。ましてやAIにとってはなおさらです。残酷な成績表：トップAIも次々と「脱落」では、この究極の試練で、今日の最も強力なAIモデルはどのように機能したのでしょうか？結果はかなり衝撃的です。思考モデルランクモデル平均@4 クロスシナリオ（合格）クロスシナリオ（合格@4）シングルシナリオ（平均@4） 1 03 (high) 30.0 6.0 61.0 53.5 2 Al Claude-4.1-Opus (w/ thinking) 29.0 56.0 6.0 47.5 3 MLongCat-Flash-Thinking 24.3 54.0 3.0 42.3 4 Gemini-2.5-Pro 23.5 53.0 5.0 49.0 5 A Claude-4-Sonnet (w/ thinking) 23.0 51.0 6.0 46.0 6 GPT-5 (high) 22.8 51.0 3.0 54.0 7 Z GLM-4.5 (w/ thinking) 22.8 48.0 2.0 44.5 8 04-mini (high) 19.5 49.0 1.0 44.5 9 Qwen3-235B-A22B-Thinking-2507 18.8 45.0 2.0 44.0 10 Doubao-Seed-1.6-Thinking 17.0 42.0 1.0 30.3 11 DeepSeek-R1-0528 14.5 39.0 0.0 40.3 12 Gemini2.5-Flash (think on) 5.3 24.0 0.0 32.0 13 Qwen3-32B (w/ thinking) 5.0 47.0 3.0 22.8 非思考モードランクモデル平均@4 クロスシナリオ（合格）クロスシナリオ（合格@4）シングルシナリオ（平均@4） 1 Al Claude-4.1-Opus (w/o thinking) 21.8 47.0 3.0 46.0 2 Al Claude-4-Sonnet (w/o thinking) 21.3 49.0 4.0 39.0 3 LongCat-Flash-Chat 20.3 45.0 2.0 39.5 4 GLM-4.5 (w/o thinking) 20.0 47.0 1.0 45.8 5 Qwen3-Max 18.5 3.0 47.0 37.2 6 DeepSeek-V3.2-Exp (w/o thinking) 17.7 2.0 41.0 36.2 7 DeepSeek-V3.1 (w/o thinking) 16.3 40.0 1.0 34.0 8 K Kimi-K2-0905 15.5 39.0 2.0 35.3 9 Qwen3-235B-A22B-Instruct-2507 14.3 0.0 38.0 34.3 10 GPT-4.1 13.8 0.0 35.0 37.8 11 Doubao-Seed-1.6 10.5 29.0 0.0 37.8 12 Gemini-2.5-Flash (think off) 5.8 17.0 1.0 31.0 13 Qwen3-32B (w/o thinking) 4.0 0.0 12.0 16.5 14 GPT-5 (minimal) 4.0 9.0 0.0 30.0 15 DeepSeek-V3-0324 3.8 12.0 0.0 25.3 VitaBenchが公開したリーダーボードによると、データは大きなパフォーマンスのギャップを示しています。

Oct 21, 2025 Read →