AIのEQ（心の知能指数）対決：2025年最新EQ-Benchランキング発表、最も「人の心」を理解する言語モデルは誰か？

AIはもはや冷たい機械ではありません。最新のEQ-Bench 3（感情知能評価）ランキングが発表されましたが、その結果はあなたを驚かせるかもしれません。本記事では、このランキングを深く掘り下げ、Horizon-Alpha、Kimi、GPT-5、Geminiといったトップモデルが「空気を読む」能力でどのような真のパフォーマンスを発揮しているかを見ていき、なぜ感情知能がAI開発の次の重要な戦場となっているのかを探ります。

AIとチャットするとき、正確な答え以外に何を期待しているか考えたことはありますか？理解されているという感覚、温かい返信、あるいは「空気を読む」ことができる暗黙の了解かもしれません。率直に言って、これが「感情知能」（EQ）であり、AIモデルの優劣を判断する新たな基準として静かに台頭してきています。

最近、権威あるAI感情知能評価プラットフォームであるEQ-Benchが最新の第3版ランキングを発表しました。このランキングは、AI界の「EQ大試験」のようなもので、非常に挑戦的なロールプレイングシナリオを通じて、各大規模言語モデルが複雑な感情的相互作用を処理する能力を検証します。

では、2025年の今日、一体どのモデルが最も「人の心」を理解しているのでしょうか？結果はあなたが思っているものとは少し違うかもしれません。

EQ-Benchとは何か？なぜそれほど重要なのか？

ランキングを発表する前に、まずEQ-Benchとは何かについて話さなければなりません。簡単に言えば、これはAIの計算能力やプログラミング能力をテストするプラットフォームではなく、大規模言語モデル（LLM）が感情的なコミュニケーションにおいてどのようなパフォーマンスを発揮するかを測定するために特別に設計されたものです。

評価方法は非常に特殊です。モデルをいくつかの厄介で感情的な緊張感に満ちた模擬対話に参加させ、その後、別の高性能モデル（現在はSonnet 3.7が審査員を務めています）が共感、洞察力、社会的機敏さなど、複数の側面から採点します。最終的に、チェスの試合に似たEloレーティングシステムを通じて、総合的な感情知能スコアが算出されます。

なぜこれが重要なのでしょうか？AIが私たちの日常生活に溶け込むにつれて、仕事のアシスタント、学習パートナー、あるいは人生の伴侶として、その感情知能の高さが、私たちの経験がスムーズで楽しいものになるか、それとも不満に満ちたものになるかを直接決定するからです。高いEQを持つAIこそが、単なる話す計算機ではなく、真に有能なアシスタントになることができるのです。

2025年8月最新AI感情知能ランキング（Eloスコア）

さて、いよいよ本題です。2025年8月14日時点の最新ランキングを見てみましょう。Eloスコアが高いほど、総合的な感情知能のパフォーマンスが強いことを示している点にご注意ください。横にある色とりどりの能力スコアは合計スコアには含まれませんが、各モデルのユニークな「個性」を垣間見ることができます。

順位	モデル	Eloスコア
1	horizon-alpha	1568
2	Kimi-K2-Instruct	1565
3	o3	1500
4	gemini-2.5-pro-preview-06-05	1470
5	chatgpt-4o-latest-2025-03-27	1370
6	gpt-5-chat-latest-2025-08-07 (新規)	1357
7	chatgpt-4o-latest-2025-04-25	1320
8	GLM-4.5 (新規)	1311
9	o4-mini	1291
10	claude-opus-4	1290
11	gemini-2.5-pro-preview-03-25	1284
12	Qwen3-235B-A22B	1275
13	DeepSeek-k-R1	1270
14	claude-sonnet-4	1260
15	gemini-2.5-pro-preview-2025-05-07	1247

出典：EQ-Bench公式サイト

ランキングのハイライトと考察：意外なダークホースは誰か？

このランキングを見て、あなたも少し驚いたのではないでしょうか？ここでは、私たちが深く考えるべきいくつかの発見があります。

新王の戴冠：Horizon-Alphaとは誰か？ 首位はもはや私たちがおなじみの巨人たちではありません。horizon-alphaという名前のモデルがわずかな差で王座を奪い、Eloスコアは1568に達しました。このダークホースの出現は、AI分野の競争がいかに激しいか、そして常に新しい挑戦者が現状を覆す準備ができていることを証明しています。
Kimiが僅差で追う 中国のKimi-K2-Instructは1565という高スコアで2位につけており、1位との差はわずか3ポイントです。能力ヒートマップを見ると、Kimiは洞察力（Insight）、共感（Empathy）、**分析能力（Analytic）**で驚異的な9.6点を獲得しており、ユーザーの感情を深く理解し、それに応える卓越した能力を示しています。
GPT-5の感情知能は「後退」したのか？ これが最も意外な点かもしれません。最新リリースのgpt-5-chat-latest-2025-08-07のEloスコアは1357で、数ヶ月前にリリースされたchatgpt-4o-latest-2025-03-27（1370点）よりも低いのです。これは興味深い問題を提起します。モデルの反復更新は、必ずしも感情知能の向上をもたらすとは限らないのでしょうか？おそらく新しいモデルは論理的推論やコーディング能力は高いかもしれませんが、感情の機微の調整においては、旧バージョンほど好ましくないのかもしれません。これは、AIの「進歩」は多次元的であり、単一の指標だけで判断してはならないことを私たちに思い起こさせます。
単なるスコアではなく、「個性」の表れ ヒートマップをよく見ると、各モデルには独自の「個性」があることがわかります。例えば、あるモデルは**温かみ（Warm）が高く、親しい友人のようです。また、あるモデルは分析能力（Analytic）**が際立っており、冷静な軍師のようです。そして、**道徳的な説教（Moralising）**のスコアが高いモデルもあり、これはユーザーを「教育」することを好む可能性があり、状況によっては少し煩わしく感じられるかもしれません。これこそがEQ-Benchの魅力であり、AIの多様な性格の輪郭を見せてくれるのです。

EQ-Benchの解読：高いEQを持つAIはどのような特質を備えているか？

EQ-Benchのスコアは単なる数字ではありません。その背後には、8つの核となる次元を中心に、採点対象外のいくつかの特質も観察する、完全な評価体系があります。

中核となる採点次元：

**共感の実証（Demonstrated empathy）：**他者の感情を認識、理解し、共有する能力。
**実用的なEI（Pragmatic EI）：**感情知能を実用的な問題解決に応用する能力。
**洞察の深さ（Depth of insight）：**深く、斬新な視点を提供し、潜在的な問題を発見する能力。
**社会的機敏さ（Social dexterity）：**社会的相互作用において巧みに対処する能力。
**感情的推論（Emotional reasoning）：**感情に基づいた論理的思考を行う能力。
**適切な検証および/または挑戦（Appropriate validation and/or challenge）：**いつ肯定し、いつ異なる見解を提示すべきかを知っていること。
**メッセージの調整（Message tailoring）：**対象者や状況に応じてコミュニケーション方法を調整すること。
**総合的なEQ（Overall EQ）：**全体的な感情知能のパフォーマンス。

参考のみの「個性」の特質：

**人間らしさ（Humanlike）：**応答の自然さ、人間らしさの度合い。
**自己主張（Assertive）：**必要なときに自信を持って境界線を設定する能力。
**温かみ（Warm）：**友好的で、親しみやすく、近づきやすい口調。
**従順さ（Compliant）：**指示に従う、またはユーザーの意向に同意する意欲。

結論：AIの未来は「人の心」から始まる

EQ-Benchのこのランキングは、AI開発の重要なトレンドを明らかにしています。技術競争は、単なる「IQ」の競争から、より複雑な「EQ」の競争へと移行しつつあります。

高いEQを持つAIは、タスクをより効率的に完了できるだけでなく、人間との感情的なつながりと信頼を築くことができます。将来、私たちがAIサービスを選ぶとき、おそらく友人を選ぶように、その賢さだけでなく、それが「私を理解してくれるか」を重視するようになるでしょう。

このAIのEQ対決はまだ始まったばかりです。次のランキングではどのような驚きが待っているのでしょうか？楽しみに待ちましょう。

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

A …

tool

AIモデル描画能力対決：トップ9 LLMによるSVG生成ベンチマーク

大規模言語モデルが「ビジュアルコード」に挑戦し始めたとき、真の勝者は誰なのか？この記事では、Claude Sonnet 4.5、GPT-5.1、Gemini 3.0など9つのトップAIモデルのSVG生成ベンチマークを詳細に解析し、30のクリエイティブなプロンプトでのパフォーマンスを探り、これが開発者やデザイナーにとって何を意味するのかを分析します。コードとアートの交差点 PythonやJavaScriptを書くのが得意な人工知能が、「絵を描け」と言われたらどうなるか想像したことはありますか？ここで言っているのは、Midjourneyのようにピクセル画像を生成することではなく、SVG（スケーラブル・ベクター・グラフィックス）コードを書くことです。これは、数学者に数式を書いて猫を描かせるようなもので、狂っているように聞こえますが、これこそが現在のAI分野で最も興味深い戦場の一つなのです。最近、「LLM SVG Generation Benchmark」というベンチマークが広く注目を集めました。このテストは、現在市場で最も強力な9つのAIモデルを集め、30の極めてクリエイティブなSVG生成指示に挑戦させたものです。これは単に誰のコードが正しいかをテストするだけでなく、これらのモデルが「空間推論」と「視覚的想像力」を備えているかをテストするものでもあります。この対決の参加者リストは、Anthropic、OpenAI、GoogleからxAI、Alibabaなどのテック大手による最新の傑作を含んだ、まさにドリームチームと言えます。出場選手紹介：2025年のトップ戦力このベンチマークリストは、AIモデルの反復速度が驚くほど速いというメッセージを伝えています。現在の主要な大規模言語モデル（LLM）の最高水準を代表するこれら9人の選手を詳しく見てみましょう： Claude Sonnet 4.5 (Anthropic)：厳格なコードロジックで知られていますが、今回のアップグレード版はグラフィックロジックでも優位性を維持できるでしょうか？ Claude Opus 4.5 (Anthropic)：Anthropicのフラッグシップとして、理論上、複雑な指示を処理する際により繊細なパフォーマンスを発揮するはずです。 Grok Code Fast 1 (xAI)：314BパラメータのMoE（混合エキスパート）アーキテクチャを擁し、速度とコード生成に重点を置いた、イーロン・マスク率いるxAIの重要な戦力です。 Gemini 2.5 Pro (Google)：マルチモーダル理解において常に優れたパフォーマンスを発揮してきたGoogleの主力モデルです。 Gemini 3.0 Pro Preview (Google)：これはGoogleの次世代のプレビュー版であり、画期的なアーキテクチャの改善があるか期待させます。 DeepSeek V3.2-Exp (685B/37B MoE)：オープンソースコミュニティからの強力な挑戦者であり、膨大なパラメータ数は複雑な世界の理解力を示唆しています。 GLM-4.6 (Zhipu AI, 355B/32B MoE)：Zhipu AIの最新のイテレーションであり、コード分野における中国語圏モデルの競争力を示しています。 Qwen3-VL-235B-A22B-Thinking (Alibaba)：Alibaba Cloudの通義千問（Qwen）シリーズで、特に「Thinking」と表記されており、グラフィック生成に不可欠な思考の連鎖（CoT）プロセスが強化されていることを示唆しています。 GPT-5.1 (OpenAI)：市場のベンチマークとして、GPTシリーズの更新は常に注目の的であり、バージョン5.1は創造性において確実に向上しているはずです。なぜSVG生成はそんなに難しいのか？画像を生成することの何が難しいのか、と問うかもしれません。DALL-Eはずっと前にそれをやってのけたではないか、と。ここには重要な違いがあります。DALL-EやStable Diffusionのようなモデルが生成するのは「ピクセル」であり、適切な場所に色を塗りつぶせばよいのです。しかし、LLMによるSVG生成は「コード」を書くことです。モデルは頭の中でX/Y座標系を構築し、すべての曲線のベジェパラメータ（Bezier curves）を正確に計算し、レイヤーの重なり順のロジックを理解しなければなりません。これは目隠しをしてパズルをするようなものです。モデルは自分が描いたものを見ることができず、XML構文の理解と空間ロジックの推論だけに頼って「盲目的に描く」しかありません。モデルに空間の概念がなければ、描かれた猫の耳がお腹に生えていたり、円が奇妙な多角形になってしまったりする可能性があります。このベンチマークでは30のクリエイティブなプロンプトが使用されました。つまり、お題は単純な「赤い円を描け」ではなく、複雑なシーンの説明、抽象的な概念、あるいは精密な幾何学的構造を必要とする図形が含まれている可能性があります。これは構文の正しさだけでなく、物理的な世界の形状に対するモデルの認識も試されます。各陣営の技術的攻防今回のベンチマークでは、いくつかの興味深い技術的トレンドを観察することができます。 MoEアーキテクチャの台頭リストの中のGrok、DeepSeek、GLMなどのモデルは、MoE（混合エキスパート）アーキテクチャであることを明確に示しています。これは、モデル内部に異なるタイプのタスクを処理する「専門家」がいることを意味します。SVGを描く際、幾何計算を担当する専門家と、配色を担当する別の専門家がいるかもしれません。この分業方式は、計算効率を維持しながら、出力の精度を向上させることが理論的に可能です。「思考」能力の導入 Qwen3の名前に「Thinking」が含まれているのは非常に興味深いです。これは、モデルが最終的なコードを出力する前に、内部で思考の連鎖（Chain of Thought）による推論を行うことを表している可能性があります。精密な計算を必要とするSVGのようなタスクでは、モデルに「描く前に考えさせる」ことで、座標のずれという恥ずかしい状況を大幅に減らすことができます。クローズドソースとオープンソースのせめぎ合い GPT-5.1とClaude 4.5はクローズドソースモデルの頂点を表しており、通常は大量の人間によるフィードバック強化学習（RLHF）を経ており、人間の美意識を満足させる方法をよりよく知っています。一方、DeepSeekやQwenなどのモデルはオープンウェイトやオープンソースコミュニティの力を表しており、パラメータ数やアーキテクチャの革新において、より大胆であることが多いです。開発者とデザイナーはどう選ぶべきか？このベンチマークリストを前に、実際のワークフローにどのように適用すべきでしょうか？

Dec 2, 2025 Read →

金 …

tool

金メダルだけじゃない：Google DeepMindがIMO-Benchを発表、AI数学的推論能力の新たな基準を確立

Geminiモデルが国際数学オリンピック（IMO）で金メダル基準を達成した後、Google DeepMindは正式にIMO-Benchをリリースしました。これは単なる評価ツールではなく、AIを「問題解決」から「深層推論」へと推進する新しい基準であり、AI分野をより堅牢で創造的な数学的推論の新時代へと導くことを目指しています。 AI数学コンテストで金メダルを獲得した後、私たちは何に注目すべきか？ 2025年7月、人工知能分野は歴史的な瞬間を迎えました。Google DeepMindの先進的なGeminiモデルは、Deep Think技術を搭載し、国際数学オリンピック（IMO）で金メダル基準を達成しました。これは間違いなくAI開発における大きなマイルストーンです。しかし、この勝利の意義は、IMOレベルの難問で優れた結果を出すことだけにとどまりません。真の目標は、深層で堅牢な数学的推論を行うことができるシステムを構築することです。結局のところ、正しい答えを出すだけでは不十分であり、「なぜそうなのか」を理解し証明することが真の知能への鍵となります。この理念に基づき、EMNLP 2025会議で、Google DeepMindはIMO-Bench—一連の高度な推論ベンチマーク—を盛大に発表しました。これはGeminiの金メダル獲得の道のりで中心的な役割を果たしただけでなく、数学的推論能力においてAIコミュニティ全体に新たな扉を開くことを目指しています。では、IMO-Benchとは一体何なのか？簡単に言えば、IMO-BenchはAIモデルの数学的能力を評価するために特別に設計された「テスト問題」のセットです。しかし、これは普通の試験ではありません。すべての問題は、10人のIMO金メダリストと5人の銀メダリストからなる専門家パネルによって厳格に審査されています。 IMOの問題が難しいのは、厳密な多段階推論だけでなく、公式の枠組みを超えた創造性も必要とされるからです。これこそがIMO-Benchの核心です。AIが答えを計算できるかどうかだけでなく、AIが「考える」ことができるかどうかを重視しています。 IMO-Benchは主に3つの部分で構成されており、それぞれに重点があります。 IMO-AnswerBench：400問を含む大規模テストで、モデルが「正しい答えを出す」能力を評価することに焦点を当てています。 IMO-ProofBench：60問を含む高度な評価で、モデルが「厳密な証明プロセスを作成する」能力を検証することを目的としています。 IMO-GradingBench：1000のケースを含み、「長文の回答を自動的に評価する」技術の進歩を促進するために使用されます。このベンチマークのリリースは、コミュニティの焦点を単純な「最終的な答え」から、より重要な「証明プロセス」自体に移し、それによってAIの推論能力をより厳密に評価することを目指しています。標準的な答えを超えて：IMO-ProofBenchの挑戦これまで、私たちはAIの数学的能力を、答えの正確さだけで評価することがよくありました。しかし、これだけでは不十分です。真に数学を理解しているシステムは、厳密で有効な数学的議論を構築できる必要があります。この目的のために、IMO-BenchはIMO-ProofBenchを立ち上げ、評価を新たなレベルに引き上げました。このベンチマークには、証明を必要とする60の問題が含まれており、2つのサブセットに分けられています。基本セット（Basic）：IMOの予選から中程度の難易度の問題までをカバーし、モデルの初期開発段階での推論能力を評価するために使用されます。高度なセット（Advanced）：新しい、非常に挑戦的な問題を含み、実際のIMO試験の最高難易度をシミュレートします。テスト結果は、異なるモデル間のパフォーマンスに大きな違いがあることを示しています。基本セットでは、Gemini Deep Think（IMO Gold）が89.0%の高得点を達成しましたが、ほとんどのモデルは60%未満でした。より挑戦的な高度なセットでは、その差はさらに顕著です。Gemini以外のすべてのモデルは25%未満のスコアでしたが、Gemini Deep Thinkは現在の最先端である**65.7%**を達成しました。この成果は大きな飛躍ですが、最も強力なモデルでさえ、完璧な数学的推論への道はまだ長いことを示しています。 AIはAIの答案を採点できるのか？ProofAutoGraderの誕生人間の専門家による評価は数学的証明を検証するためのゴールドスタンダードですが、その高い時間と人件費は大規模な研究の実現可能性を制限します。この問題を解決するために、DeepMindチームはGemini 2.5 Proをベースにした自動採点ツールであるProofAutoGraderを開発しました。その動作方法は、問題の説明、候補となる解答、参照解答、および具体的な採点ガイドラインを提供し、AIが証明プロセスを自動的に採点するというものです。結果は期待できるものでした。14の公開モデルをテストした際、ProofAutoGraderの採点結果は人間の専門家の採点結果と高い相関を示し、ピアソン相関係数は基本セットと高度なセットでそれぞれ驚異的な0.96と0.93に達しました。これは、AIによる自動採点が実現可能であるだけでなく、かなり信頼できることを意味し、将来の大規模でスケーラブルなAI推論研究への道を開きます。リーダーボードから見るAI推論の真のギャップモデル高度な証明ベンチブレイクダウンクエリ日付新規 IMO 2024† USAMO 2025 Gemini Deep Think (IMO Gold) 65.7% 61.1% 2025-08-02 76.2% 69.0% Gemini Deep Think (IMO lite) 37.6% 31.7% 2025-08-20 40.5% 52.4% Gemini 2.5 Pro with (Huang & Yang, 2025) 24.8% 17.5% 2025-07-14 19.1% 52.4% Grok 4 (heavy) 23.3% 11.1% 2025-07-12 7.1% 76.2% o3 20.5% 15.1% 2025-08-04 4.8% 52.4% GPT-5 20% 15.9% 2025-09-18 33.3% 19.0% Grok 4 18.6% 17.5% 2025-08-20 16.7% 23.8% Gemini 2.5 Pro 17.6% 15.9% 2025-08-04 7.1% 33.3% o4-mini (high reasoning) 11.4% 8.7% 2025-08-04 7.1% 23.8% Kimi-K2-Instruct 7.1% 4% 2025-08-21 2.4% 21.4% Qwen3-235B 5.2% 7.1% 2025-08-21 0.0% 4.8% Claude Sonnet 4 4.8% 6.4% 2025-09-17 2.4% 2.4% DeepSeek V3 4.3% 6.3% 2025-09-16 2.4% 0.0% DeepSeek R1 3.8% 6.4% 2025-09-16 0.0% 0.0% Claude Opus 4 2.9% 0.0% 2025-08-04 2.4% 11.9% IMO-Benchのリーダーボードは興味深い現象を明らかにしています。一部のモデルには「過学習」の問題がある可能性があります。

Nov 5, 2025 Read →

L …

tool

LLMエージェント中間試験：VitaBenchが示す厳しい現実、トップモデルの成功率はわずか30％？

大規模言語モデル（LLM）を搭載したAIエージェントが万能だと思っていた矢先、美団のLongCatチームが発表した最新のベンチマーク「VitaBench」が業界全体に冷や水を浴びせました。この「最難関の模擬試験」とも言えるテストは、トップクラスのAIモデルでさえ、複雑な現実世界のタスクを処理する際の成功率が驚くほど低いことを示しています。一体何が起こっているのでしょうか？ AIエージェントが研究室から出ると、現実に打ちのめされる近年、大規模言語モデル（LLM）を搭載したAIエージェントは、間違いなくテクノロジー業界で最もホットな話題です。私たちは、将来的には口頭で指示するだけで、AIアシスタントがレストランの予約、旅行の計画、配達の手配など、あらゆる大小の雑事を処理してくれる未来を想像しています。素晴らしいと思いませんか？しかし、現実は常に少し厳しいものです。現在のAIエージェントは、単純で閉鎖的な環境ではうまく機能するかもしれませんが、それは教習所の練習コースで運転するようなもので、すべてが順調に進みます。しかし、現実世界の交差点、つまり予期せぬ状況、曖昧な指示、複数のタスクが入り混じる複雑な環境に置かれたとき、彼らはまだうまく対処できるでしょうか？答えは少しがっかりさせるかもしれません。過去の多くの評価ベンチマークは、問題を単純化しすぎており、実生活の複雑さを真に反映することができませんでした。これは、一次方程式を使って数学者の能力を評価するようなもので、真の実力をまったく測定できていません。 VitaBench：AIエージェントのための「究極の試練の場」この問題を解決するために、美団のLongCatチームはVitaBenchを立ち上げました。これは、実世界のアプリケーションにおけるLLMエージェントのパフォーマンスを評価するために特別に設計された、新しい高難易度のベンチマークです。 VitaBenchは、非常にリアルな「生活シミュレーター」と考えることができます。もはや机上の空論ではなく、AIを私たちが最もよく知る3つの主要な生活シーンに直接投入します。フードデリバリー店舗での消費オンライン旅行サービスこのシミュレートされた環境はどれほど複雑なのでしょうか？店舗情報の照会、予約、注文から支払いに至るまで、考えられるほぼすべての操作を網羅する、最大66種類のツールを統合しています。単一のタスクだけでなく、「クロスシナリオ」の連続的な挑戦 VitaBenchの中核的な課題は、そのタスク設計にあります。300の単一シナリオのタスクだけでなく、**100の非常に挑戦的な「クロスシナリオタスク」**も設計されています。これはどういう意味でしょうか？たとえば、実際のユーザーリクエストは次のようになるかもしれません。「川の景色が見えるホテルを予約して、チェックインの夜に、ホテルの近くで評価が高く、辛くなく、予算200ドルのレストランを探してください。」このタスクでは、AIエージェントは次のことを行う必要があります。複雑な意図の理解：ホテルを予約するだけでなく、レストランも予約する必要があり、両者には関連性があります。時空を超えた推論：チェックイン日、夕食の時間、ホテルとレストランの地理的な関係を処理する必要があります。ツールの柔軟な使用：まず「ホテル予約ツール」を使用し、その結果に基づいて「レストラン検索ツール」を使用する必要があります。積極的な明確化：ユーザーの指示が曖昧な場合、AIは「レストランの料理の種類はどのようになさいますか？」など、積極的に質問する必要があります。動的な意図の追跡：複数回の対話の中で、ユーザーが心変わりする可能性があり、AIはそれに追随できる必要があります。正直なところ、これは人間にとっても少し複雑です。ましてやAIにとってはなおさらです。残酷な成績表：トップAIも次々と「脱落」では、この究極の試練で、今日の最も強力なAIモデルはどのように機能したのでしょうか？結果はかなり衝撃的です。思考モデルランクモデル平均@4 クロスシナリオ（合格）クロスシナリオ（合格@4）シングルシナリオ（平均@4） 1 03 (high) 30.0 6.0 61.0 53.5 2 Al Claude-4.1-Opus (w/ thinking) 29.0 56.0 6.0 47.5 3 MLongCat-Flash-Thinking 24.3 54.0 3.0 42.3 4 Gemini-2.5-Pro 23.5 53.0 5.0 49.0 5 A Claude-4-Sonnet (w/ thinking) 23.0 51.0 6.0 46.0 6 GPT-5 (high) 22.8 51.0 3.0 54.0 7 Z GLM-4.5 (w/ thinking) 22.8 48.0 2.0 44.5 8 04-mini (high) 19.5 49.0 1.0 44.5 9 Qwen3-235B-A22B-Thinking-2507 18.8 45.0 2.0 44.0 10 Doubao-Seed-1.6-Thinking 17.0 42.0 1.0 30.3 11 DeepSeek-R1-0528 14.5 39.0 0.0 40.3 12 Gemini2.5-Flash (think on) 5.3 24.0 0.0 32.0 13 Qwen3-32B (w/ thinking) 5.0 47.0 3.0 22.8 非思考モードランクモデル平均@4 クロスシナリオ（合格）クロスシナリオ（合格@4）シングルシナリオ（平均@4） 1 Al Claude-4.1-Opus (w/o thinking) 21.8 47.0 3.0 46.0 2 Al Claude-4-Sonnet (w/o thinking) 21.3 49.0 4.0 39.0 3 LongCat-Flash-Chat 20.3 45.0 2.0 39.5 4 GLM-4.5 (w/o thinking) 20.0 47.0 1.0 45.8 5 Qwen3-Max 18.5 3.0 47.0 37.2 6 DeepSeek-V3.2-Exp (w/o thinking) 17.7 2.0 41.0 36.2 7 DeepSeek-V3.1 (w/o thinking) 16.3 40.0 1.0 34.0 8 K Kimi-K2-0905 15.5 39.0 2.0 35.3 9 Qwen3-235B-A22B-Instruct-2507 14.3 0.0 38.0 34.3 10 GPT-4.1 13.8 0.0 35.0 37.8 11 Doubao-Seed-1.6 10.5 29.0 0.0 37.8 12 Gemini-2.5-Flash (think off) 5.8 17.0 1.0 31.0 13 Qwen3-32B (w/o thinking) 4.0 0.0 12.0 16.5 14 GPT-5 (minimal) 4.0 9.0 0.0 30.0 15 DeepSeek-V3-0324 3.8 12.0 0.0 25.3 VitaBenchが公開したリーダーボードによると、データは大きなパフォーマンスのギャップを示しています。

Oct 21, 2025 Read →