AI究極のバトルロイヤル：Design Arena全ランキング発表！デザインだけでなく、ウェブサイト構築、動画・音声生成も開戦

AI界の競争は白熱しています！Design Arenaというベンチマークテストプラットフォームが、大規模なクラウド投票を通じて、プログラミング、ウェブサイト構築、画像、動画、さらには音声生成といった分野における主要AIの真の実力を全面的に検証しています。最新のランキングでは、総合力でClaudeがGPT-5に辛勝し、動画生成分野ではMidjourneyがまさに無敵、さらにOpenAIの音声モデルが勝率100%という神話を打ち立てました。このランキングが明らかにする業界のトレンドとは？各分野の真の王者は誰なのか？探っていきましょう。

単なるアリーナではなく、万能の「AI実力測定器」

Design Arena (https://www.designarena.ai)という、AIモデルがデザインで競い合うプラットフォームをご存知かもしれません。しかし、その野心はそれだけにとどまりません。今日、Design Arenaは、複数の創造的および技術的分野を網羅する総合的なベンチマークテストプラットフォーム（Benchmark）に進化しました。何千人ものユーザーによる「ブラインドテスト」投票を通じて、マーケティングの誇大広告に邪魔されることなく、主要なAIツールの真のパフォーマンスを明らかにしています。

このプラットフォームの中核となるメカニズムは、シンプルでありながら非常に効果的です。タスクを与え、2つのAIに匿名でそれを完了させ、その後、実際の人間が勝者に投票します。 Eloレーティングシステムに基づくこのランキングは、単純な機能リストよりも、特定のタスクにおけるAIの優位性をよりよく反映しています。

では、Design Arenaの4つの主要な戦場の最新の戦況を詳しく見ていきましょう。

最も熾烈な最前線：AIモデル総合実力（Models）大比較

これはDesign Arenaで最も古く、最も注目されている戦場であり、主にコード生成、UIデザイン、データ視覚化などの総合的なタスクにおけるAIのパフォーマンスをテストします。ここでの競争は「神々の戦い」と表現でき、ランキングは目まぐるしく変化します。

Rank	Model	Elo Rating	Win Rate	MoE	Battles	Organization	Time
1	Claude Opus 4.1 (No Thinking)	1362 293W / 111L	71.8%	±4.4%	394	Anthropic	2m 4s
2	Claude Opus 4 (No Thinking)	1362 1933W / 759L	71.8%	±1.7%	2,692	Anthropic	1m 29s
3	GPT-5 (Minimal Reasoning)	1361 268W / 106L	71.7%	±4.6%	374	OpenAI	1m 59s
4	Claude Sonnet 4 (No Thinking)	1342 2019W / 892L	69.4%	±1.7%	2,911	Anthropic	1m 13s
5	DeepSeek-R1-0528	1339 1135W / 509L	69.0%	±2.2%	1,644	DeepSeek	1m 17s

戦況分析： データから明らかなように、AnthropicのClaudeデュオ（Opus 4.1 & 4）が非常に僅差でトップに並び、OpenAIのGPT-5を3位に押しやりました。上位3モデルのEloレーティングの差はわずか1ポイントで、勝率もほぼ同じであり、この分野におけるトップモデルの実力が拮抗していることを示しています。注目すべきは、Anthropicのモデルが上位に複数ランクインしており、コードと論理的推論における強力な実力を示していることです。

単なるデザイナーではなく、建築家：AIウェブサイトビルダー（Builders）ランキング

モデルレベルでの対決を見た後は、より実用的な分野、AIウェブサイトビルダーに目を向けましょう。これらのツールは、コードスニペットを生成するだけでなく、指示に基づいてウェブサイトやアプリケーションを直接構築できるAIエージェントです。

ツール (Tool)	勝率 (Win Rate)
new.website	73.1%
Sana.new	62.6%
Devin	61.1%
Lovable	59%
Figma Make	58.1%
Replit	55.7%
Magic Patterns	55.6%
Cursor	55.1%
Floot	54.9%
Base 44	54.2%

戦況分析： この分野では、new.websiteが73.1%という驚異的な勝率で他を圧倒し、ユーザーのニーズを理解して実際のウェブサイトに変換する優れた能力を示しています。かつて話題を呼んだAIエンジニアDevinは、61.1%の勝率で3位にランクインし、健闘していますが、圧倒的な優位性を示してはいません。このリストには、ReplitやCursorなど、開発者にはおなじみのツールも含まれており、最も効率的なAI開発パートナーを選択するための重要な参考資料となります。

視覚の饗宴：拡散モデル（Diffusion）画像・動画生成対決

拡散モデルは、近年のAIGC分野で最も輝かしいスターです。Design Arenaは、彼らのために「画像」と「動画」の2つのカテゴリーに分かれた専用の戦場も開設しました。

画像生成 (Image)

モデル (Model)	勝率 (Win Rate)
GPT-Image-1	69.9%
Imagen 4 Ultra Generate Preview 06-06	67%
Imagen 3 Generate 002	59.3%
FLUX.1 Konxt. Max	57.6%
Ideogram 3.0	48.1%

戦況分析： 静止画像の分野では、GPT-Image-1というモデルが70%近い勝率で優勝しました。その背後にはOpenAIの技術が関係している可能性が高いです。GoogleのImagenシリーズが僅差で続き、強力な競争力を示しています。また、テキスト処理で知られるIdeogramのようなモデルもランクインしています。

動画生成 (Video)

モデル (Model)	勝率 (Win Rate)
Midjourney	77.6%
Van 2.2 Plus	62%
Pika	41%
Higgsfield	17.6%

戦況分析： 動画生成の戦況は、「一強独裁」の様相を呈しています。Midjourneyが**77.6%**という圧倒的な優位性で市場を席巻しており、その生成する動画の品質と創造性は、明らかにユーザーに愛されています。対照的に、かつて人気だったPikaなどのツールは、大きな差をつけられています。この結果は、現在のAI動画生成分野において、Midjourneyが議論の余地のない王者であることを強く示しています。

誰の声が一番心地よいか？AI音声生成（Audio）ランキング

最後に、AIの「声」を見てみましょう。このランキングは、主にテキスト読み上げ（Text-to-Speech）の自然さと感情表現力を評価します。

モデル (Model)	勝率 (Win Rate)
OpenAI Carol	100%
OpenAI Sage	80%
OpenAI Ash	57.1%
OpenAI Alloy	57.1%
ElevenLabs Domi	42.9%
ElevenLabs Rachel	37.5%

戦況分析： このランキングでは、最も驚くべき結果が出ました。OpenAI Carolが**100%**という完璧な勝率を記録したのです！これは、対戦したすべての回で、ユーザーが例外なくその声を選んだことを意味します。さらに、OpenAIの他の音声モデル（Sage、Ash、Alloy）もランキングの上位を独占し、ほぼ独占状態を形成しています。これは、音声合成技術におけるOpenAIの主導的地位を示しており、その声の自然さとリアルさは非常に高いレベルに達しています。

よくある質問（FAQ）

Q1：Design Arenaのランキングが注目に値する理由は何ですか？

A1：大規模なユーザー投票に基づく「ブラインドテスト」とEloレーティングシステムを採用しているためです。これにより、ブランドのハロー効果やマーケティング宣伝の干渉を排除し、特定のタスクを完了する際のさまざまなAIツールの「実際のパフォーマンス」と「ユーザーの好み」を直接反映します。現在、最も客観的で実用的なAI実力ランキングの1つです。

Q2：「モデル（Models）」と「ビルダー（Builders）」の違いは何ですか？

A2：「モデル」リストは、コードの生成、質問への回答、UI要素の設計など、基盤となるAIのコア機能に重点を置いています。一方、「ビルダー」リストは、AIモデルを統合し、ウェブサイトなどの完全なプロジェクトを直接生成できるアプリケーションレベルのツールまたはAIエージェントを評価するものであり、より実践的なエンジニアリングアプリケーションに傾倒しています。

Q3：一部のモデルは勝率が高いのに、対戦回数（Battles）が少ないのはなぜですか？

A3：これは通常、プラットフォームに新たに参加したモデルで発生します。対戦回数が少ないということは、その評価の「誤差の範囲（MoE）」が大きくなることを意味し、ランキングの安定性はまだ時間による検証が必要です。一方、3000回近くの対戦を経験したClaude Opus 4のようなモデルの評価は、非常に説得力があります。

Design Arenaは、この日進月歩のAI軍拡競争を観察するためのユニークな窓を提供してくれます。コードからビデオ、ウェブサイトから音声まで、この全面的な対決はまだ始まったばかりです。次の分野の覇者は誰になるのでしょうか？楽しみに待ちましょう。

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

Recommended for You

A …

tool

AIモデル描画能力対決：トップ9 LLMによるSVG生成ベンチマーク

大規模言語モデルが「ビジュアルコード」に挑戦し始めたとき、真の勝者は誰なのか？この記事では、Claude Sonnet 4.5、GPT-5.1、Gemini 3.0など9つのトップAIモデルのSVG生成ベンチマークを詳細に解析し、30のクリエイティブなプロンプトでのパフォーマンスを探り、これが開発者やデザイナーにとって何を意味するのかを分析します。コードとアートの交差点 PythonやJavaScriptを書くのが得意な人工知能が、「絵を描け」と言われたらどうなるか想像したことはありますか？ここで言っているのは、Midjourneyのようにピクセル画像を生成することではなく、SVG（スケーラブル・ベクター・グラフィックス）コードを書くことです。これは、数学者に数式を書いて猫を描かせるようなもので、狂っているように聞こえますが、これこそが現在のAI分野で最も興味深い戦場の一つなのです。最近、「LLM SVG Generation Benchmark」というベンチマークが広く注目を集めました。このテストは、現在市場で最も強力な9つのAIモデルを集め、30の極めてクリエイティブなSVG生成指示に挑戦させたものです。これは単に誰のコードが正しいかをテストするだけでなく、これらのモデルが「空間推論」と「視覚的想像力」を備えているかをテストするものでもあります。この対決の参加者リストは、Anthropic、OpenAI、GoogleからxAI、Alibabaなどのテック大手による最新の傑作を含んだ、まさにドリームチームと言えます。出場選手紹介：2025年のトップ戦力このベンチマークリストは、AIモデルの反復速度が驚くほど速いというメッセージを伝えています。現在の主要な大規模言語モデル（LLM）の最高水準を代表するこれら9人の選手を詳しく見てみましょう： Claude Sonnet 4.5 (Anthropic)：厳格なコードロジックで知られていますが、今回のアップグレード版はグラフィックロジックでも優位性を維持できるでしょうか？ Claude Opus 4.5 (Anthropic)：Anthropicのフラッグシップとして、理論上、複雑な指示を処理する際により繊細なパフォーマンスを発揮するはずです。 Grok Code Fast 1 (xAI)：314BパラメータのMoE（混合エキスパート）アーキテクチャを擁し、速度とコード生成に重点を置いた、イーロン・マスク率いるxAIの重要な戦力です。 Gemini 2.5 Pro (Google)：マルチモーダル理解において常に優れたパフォーマンスを発揮してきたGoogleの主力モデルです。 Gemini 3.0 Pro Preview (Google)：これはGoogleの次世代のプレビュー版であり、画期的なアーキテクチャの改善があるか期待させます。 DeepSeek V3.2-Exp (685B/37B MoE)：オープンソースコミュニティからの強力な挑戦者であり、膨大なパラメータ数は複雑な世界の理解力を示唆しています。 GLM-4.6 (Zhipu AI, 355B/32B MoE)：Zhipu AIの最新のイテレーションであり、コード分野における中国語圏モデルの競争力を示しています。 Qwen3-VL-235B-A22B-Thinking (Alibaba)：Alibaba Cloudの通義千問（Qwen）シリーズで、特に「Thinking」と表記されており、グラフィック生成に不可欠な思考の連鎖（CoT）プロセスが強化されていることを示唆しています。 GPT-5.1 (OpenAI)：市場のベンチマークとして、GPTシリーズの更新は常に注目の的であり、バージョン5.1は創造性において確実に向上しているはずです。なぜSVG生成はそんなに難しいのか？画像を生成することの何が難しいのか、と問うかもしれません。DALL-Eはずっと前にそれをやってのけたではないか、と。ここには重要な違いがあります。DALL-EやStable Diffusionのようなモデルが生成するのは「ピクセル」であり、適切な場所に色を塗りつぶせばよいのです。しかし、LLMによるSVG生成は「コード」を書くことです。モデルは頭の中でX/Y座標系を構築し、すべての曲線のベジェパラメータ（Bezier curves）を正確に計算し、レイヤーの重なり順のロジックを理解しなければなりません。これは目隠しをしてパズルをするようなものです。モデルは自分が描いたものを見ることができず、XML構文の理解と空間ロジックの推論だけに頼って「盲目的に描く」しかありません。モデルに空間の概念がなければ、描かれた猫の耳がお腹に生えていたり、円が奇妙な多角形になってしまったりする可能性があります。このベンチマークでは30のクリエイティブなプロンプトが使用されました。つまり、お題は単純な「赤い円を描け」ではなく、複雑なシーンの説明、抽象的な概念、あるいは精密な幾何学的構造を必要とする図形が含まれている可能性があります。これは構文の正しさだけでなく、物理的な世界の形状に対するモデルの認識も試されます。各陣営の技術的攻防今回のベンチマークでは、いくつかの興味深い技術的トレンドを観察することができます。 MoEアーキテクチャの台頭リストの中のGrok、DeepSeek、GLMなどのモデルは、MoE（混合エキスパート）アーキテクチャであることを明確に示しています。これは、モデル内部に異なるタイプのタスクを処理する「専門家」がいることを意味します。SVGを描く際、幾何計算を担当する専門家と、配色を担当する別の専門家がいるかもしれません。この分業方式は、計算効率を維持しながら、出力の精度を向上させることが理論的に可能です。「思考」能力の導入 Qwen3の名前に「Thinking」が含まれているのは非常に興味深いです。これは、モデルが最終的なコードを出力する前に、内部で思考の連鎖（Chain of Thought）による推論を行うことを表している可能性があります。精密な計算を必要とするSVGのようなタスクでは、モデルに「描く前に考えさせる」ことで、座標のずれという恥ずかしい状況を大幅に減らすことができます。クローズドソースとオープンソースのせめぎ合い GPT-5.1とClaude 4.5はクローズドソースモデルの頂点を表しており、通常は大量の人間によるフィードバック強化学習（RLHF）を経ており、人間の美意識を満足させる方法をよりよく知っています。一方、DeepSeekやQwenなどのモデルはオープンウェイトやオープンソースコミュニティの力を表しており、パラメータ数やアーキテクチャの革新において、より大胆であることが多いです。開発者とデザイナーはどう選ぶべきか？このベンチマークリストを前に、実際のワークフローにどのように適用すべきでしょうか？

Dec 2, 2025 Read →

金 …

tool

金メダルだけじゃない：Google DeepMindがIMO-Benchを発表、AI数学的推論能力の新たな基準を確立

Geminiモデルが国際数学オリンピック（IMO）で金メダル基準を達成した後、Google DeepMindは正式にIMO-Benchをリリースしました。これは単なる評価ツールではなく、AIを「問題解決」から「深層推論」へと推進する新しい基準であり、AI分野をより堅牢で創造的な数学的推論の新時代へと導くことを目指しています。 AI数学コンテストで金メダルを獲得した後、私たちは何に注目すべきか？ 2025年7月、人工知能分野は歴史的な瞬間を迎えました。Google DeepMindの先進的なGeminiモデルは、Deep Think技術を搭載し、国際数学オリンピック（IMO）で金メダル基準を達成しました。これは間違いなくAI開発における大きなマイルストーンです。しかし、この勝利の意義は、IMOレベルの難問で優れた結果を出すことだけにとどまりません。真の目標は、深層で堅牢な数学的推論を行うことができるシステムを構築することです。結局のところ、正しい答えを出すだけでは不十分であり、「なぜそうなのか」を理解し証明することが真の知能への鍵となります。この理念に基づき、EMNLP 2025会議で、Google DeepMindはIMO-Bench—一連の高度な推論ベンチマーク—を盛大に発表しました。これはGeminiの金メダル獲得の道のりで中心的な役割を果たしただけでなく、数学的推論能力においてAIコミュニティ全体に新たな扉を開くことを目指しています。では、IMO-Benchとは一体何なのか？簡単に言えば、IMO-BenchはAIモデルの数学的能力を評価するために特別に設計された「テスト問題」のセットです。しかし、これは普通の試験ではありません。すべての問題は、10人のIMO金メダリストと5人の銀メダリストからなる専門家パネルによって厳格に審査されています。 IMOの問題が難しいのは、厳密な多段階推論だけでなく、公式の枠組みを超えた創造性も必要とされるからです。これこそがIMO-Benchの核心です。AIが答えを計算できるかどうかだけでなく、AIが「考える」ことができるかどうかを重視しています。 IMO-Benchは主に3つの部分で構成されており、それぞれに重点があります。 IMO-AnswerBench：400問を含む大規模テストで、モデルが「正しい答えを出す」能力を評価することに焦点を当てています。 IMO-ProofBench：60問を含む高度な評価で、モデルが「厳密な証明プロセスを作成する」能力を検証することを目的としています。 IMO-GradingBench：1000のケースを含み、「長文の回答を自動的に評価する」技術の進歩を促進するために使用されます。このベンチマークのリリースは、コミュニティの焦点を単純な「最終的な答え」から、より重要な「証明プロセス」自体に移し、それによってAIの推論能力をより厳密に評価することを目指しています。標準的な答えを超えて：IMO-ProofBenchの挑戦これまで、私たちはAIの数学的能力を、答えの正確さだけで評価することがよくありました。しかし、これだけでは不十分です。真に数学を理解しているシステムは、厳密で有効な数学的議論を構築できる必要があります。この目的のために、IMO-BenchはIMO-ProofBenchを立ち上げ、評価を新たなレベルに引き上げました。このベンチマークには、証明を必要とする60の問題が含まれており、2つのサブセットに分けられています。基本セット（Basic）：IMOの予選から中程度の難易度の問題までをカバーし、モデルの初期開発段階での推論能力を評価するために使用されます。高度なセット（Advanced）：新しい、非常に挑戦的な問題を含み、実際のIMO試験の最高難易度をシミュレートします。テスト結果は、異なるモデル間のパフォーマンスに大きな違いがあることを示しています。基本セットでは、Gemini Deep Think（IMO Gold）が89.0%の高得点を達成しましたが、ほとんどのモデルは60%未満でした。より挑戦的な高度なセットでは、その差はさらに顕著です。Gemini以外のすべてのモデルは25%未満のスコアでしたが、Gemini Deep Thinkは現在の最先端である**65.7%**を達成しました。この成果は大きな飛躍ですが、最も強力なモデルでさえ、完璧な数学的推論への道はまだ長いことを示しています。 AIはAIの答案を採点できるのか？ProofAutoGraderの誕生人間の専門家による評価は数学的証明を検証するためのゴールドスタンダードですが、その高い時間と人件費は大規模な研究の実現可能性を制限します。この問題を解決するために、DeepMindチームはGemini 2.5 Proをベースにした自動採点ツールであるProofAutoGraderを開発しました。その動作方法は、問題の説明、候補となる解答、参照解答、および具体的な採点ガイドラインを提供し、AIが証明プロセスを自動的に採点するというものです。結果は期待できるものでした。14の公開モデルをテストした際、ProofAutoGraderの採点結果は人間の専門家の採点結果と高い相関を示し、ピアソン相関係数は基本セットと高度なセットでそれぞれ驚異的な0.96と0.93に達しました。これは、AIによる自動採点が実現可能であるだけでなく、かなり信頼できることを意味し、将来の大規模でスケーラブルなAI推論研究への道を開きます。リーダーボードから見るAI推論の真のギャップモデル高度な証明ベンチブレイクダウンクエリ日付新規 IMO 2024† USAMO 2025 Gemini Deep Think (IMO Gold) 65.7% 61.1% 2025-08-02 76.2% 69.0% Gemini Deep Think (IMO lite) 37.6% 31.7% 2025-08-20 40.5% 52.4% Gemini 2.5 Pro with (Huang & Yang, 2025) 24.8% 17.5% 2025-07-14 19.1% 52.4% Grok 4 (heavy) 23.3% 11.1% 2025-07-12 7.1% 76.2% o3 20.5% 15.1% 2025-08-04 4.8% 52.4% GPT-5 20% 15.9% 2025-09-18 33.3% 19.0% Grok 4 18.6% 17.5% 2025-08-20 16.7% 23.8% Gemini 2.5 Pro 17.6% 15.9% 2025-08-04 7.1% 33.3% o4-mini (high reasoning) 11.4% 8.7% 2025-08-04 7.1% 23.8% Kimi-K2-Instruct 7.1% 4% 2025-08-21 2.4% 21.4% Qwen3-235B 5.2% 7.1% 2025-08-21 0.0% 4.8% Claude Sonnet 4 4.8% 6.4% 2025-09-17 2.4% 2.4% DeepSeek V3 4.3% 6.3% 2025-09-16 2.4% 0.0% DeepSeek R1 3.8% 6.4% 2025-09-16 0.0% 0.0% Claude Opus 4 2.9% 0.0% 2025-08-04 2.4% 11.9% IMO-Benchのリーダーボードは興味深い現象を明らかにしています。一部のモデルには「過学習」の問題がある可能性があります。

Nov 5, 2025 Read →

L …

tool

LLMエージェント中間試験：VitaBenchが示す厳しい現実、トップモデルの成功率はわずか30％？

大規模言語モデル（LLM）を搭載したAIエージェントが万能だと思っていた矢先、美団のLongCatチームが発表した最新のベンチマーク「VitaBench」が業界全体に冷や水を浴びせました。この「最難関の模擬試験」とも言えるテストは、トップクラスのAIモデルでさえ、複雑な現実世界のタスクを処理する際の成功率が驚くほど低いことを示しています。一体何が起こっているのでしょうか？ AIエージェントが研究室から出ると、現実に打ちのめされる近年、大規模言語モデル（LLM）を搭載したAIエージェントは、間違いなくテクノロジー業界で最もホットな話題です。私たちは、将来的には口頭で指示するだけで、AIアシスタントがレストランの予約、旅行の計画、配達の手配など、あらゆる大小の雑事を処理してくれる未来を想像しています。素晴らしいと思いませんか？しかし、現実は常に少し厳しいものです。現在のAIエージェントは、単純で閉鎖的な環境ではうまく機能するかもしれませんが、それは教習所の練習コースで運転するようなもので、すべてが順調に進みます。しかし、現実世界の交差点、つまり予期せぬ状況、曖昧な指示、複数のタスクが入り混じる複雑な環境に置かれたとき、彼らはまだうまく対処できるでしょうか？答えは少しがっかりさせるかもしれません。過去の多くの評価ベンチマークは、問題を単純化しすぎており、実生活の複雑さを真に反映することができませんでした。これは、一次方程式を使って数学者の能力を評価するようなもので、真の実力をまったく測定できていません。 VitaBench：AIエージェントのための「究極の試練の場」この問題を解決するために、美団のLongCatチームはVitaBenchを立ち上げました。これは、実世界のアプリケーションにおけるLLMエージェントのパフォーマンスを評価するために特別に設計された、新しい高難易度のベンチマークです。 VitaBenchは、非常にリアルな「生活シミュレーター」と考えることができます。もはや机上の空論ではなく、AIを私たちが最もよく知る3つの主要な生活シーンに直接投入します。フードデリバリー店舗での消費オンライン旅行サービスこのシミュレートされた環境はどれほど複雑なのでしょうか？店舗情報の照会、予約、注文から支払いに至るまで、考えられるほぼすべての操作を網羅する、最大66種類のツールを統合しています。単一のタスクだけでなく、「クロスシナリオ」の連続的な挑戦 VitaBenchの中核的な課題は、そのタスク設計にあります。300の単一シナリオのタスクだけでなく、**100の非常に挑戦的な「クロスシナリオタスク」**も設計されています。これはどういう意味でしょうか？たとえば、実際のユーザーリクエストは次のようになるかもしれません。「川の景色が見えるホテルを予約して、チェックインの夜に、ホテルの近くで評価が高く、辛くなく、予算200ドルのレストランを探してください。」このタスクでは、AIエージェントは次のことを行う必要があります。複雑な意図の理解：ホテルを予約するだけでなく、レストランも予約する必要があり、両者には関連性があります。時空を超えた推論：チェックイン日、夕食の時間、ホテルとレストランの地理的な関係を処理する必要があります。ツールの柔軟な使用：まず「ホテル予約ツール」を使用し、その結果に基づいて「レストラン検索ツール」を使用する必要があります。積極的な明確化：ユーザーの指示が曖昧な場合、AIは「レストランの料理の種類はどのようになさいますか？」など、積極的に質問する必要があります。動的な意図の追跡：複数回の対話の中で、ユーザーが心変わりする可能性があり、AIはそれに追随できる必要があります。正直なところ、これは人間にとっても少し複雑です。ましてやAIにとってはなおさらです。残酷な成績表：トップAIも次々と「脱落」では、この究極の試練で、今日の最も強力なAIモデルはどのように機能したのでしょうか？結果はかなり衝撃的です。思考モデルランクモデル平均@4 クロスシナリオ（合格）クロスシナリオ（合格@4）シングルシナリオ（平均@4） 1 03 (high) 30.0 6.0 61.0 53.5 2 Al Claude-4.1-Opus (w/ thinking) 29.0 56.0 6.0 47.5 3 MLongCat-Flash-Thinking 24.3 54.0 3.0 42.3 4 Gemini-2.5-Pro 23.5 53.0 5.0 49.0 5 A Claude-4-Sonnet (w/ thinking) 23.0 51.0 6.0 46.0 6 GPT-5 (high) 22.8 51.0 3.0 54.0 7 Z GLM-4.5 (w/ thinking) 22.8 48.0 2.0 44.5 8 04-mini (high) 19.5 49.0 1.0 44.5 9 Qwen3-235B-A22B-Thinking-2507 18.8 45.0 2.0 44.0 10 Doubao-Seed-1.6-Thinking 17.0 42.0 1.0 30.3 11 DeepSeek-R1-0528 14.5 39.0 0.0 40.3 12 Gemini2.5-Flash (think on) 5.3 24.0 0.0 32.0 13 Qwen3-32B (w/ thinking) 5.0 47.0 3.0 22.8 非思考モードランクモデル平均@4 クロスシナリオ（合格）クロスシナリオ（合格@4）シングルシナリオ（平均@4） 1 Al Claude-4.1-Opus (w/o thinking) 21.8 47.0 3.0 46.0 2 Al Claude-4-Sonnet (w/o thinking) 21.3 49.0 4.0 39.0 3 LongCat-Flash-Chat 20.3 45.0 2.0 39.5 4 GLM-4.5 (w/o thinking) 20.0 47.0 1.0 45.8 5 Qwen3-Max 18.5 3.0 47.0 37.2 6 DeepSeek-V3.2-Exp (w/o thinking) 17.7 2.0 41.0 36.2 7 DeepSeek-V3.1 (w/o thinking) 16.3 40.0 1.0 34.0 8 K Kimi-K2-0905 15.5 39.0 2.0 35.3 9 Qwen3-235B-A22B-Instruct-2507 14.3 0.0 38.0 34.3 10 GPT-4.1 13.8 0.0 35.0 37.8 11 Doubao-Seed-1.6 10.5 29.0 0.0 37.8 12 Gemini-2.5-Flash (think off) 5.8 17.0 1.0 31.0 13 Qwen3-32B (w/o thinking) 4.0 0.0 12.0 16.5 14 GPT-5 (minimal) 4.0 9.0 0.0 30.0 15 DeepSeek-V3-0324 3.8 12.0 0.0 25.3 VitaBenchが公開したリーダーボードによると、データは大きなパフォーマンスのギャップを示しています。

Oct 21, 2025 Read →