LLMエージェント中間試験：VitaBenchが示す厳しい現実、トップモデルの成功率はわずか30％？

大規模言語モデル（LLM）を搭載したAIエージェントが万能だと思っていた矢先、美団のLongCatチームが発表した最新のベンチマーク「VitaBench」が業界全体に冷や水を浴びせました。この「最難関の模擬試験」とも言えるテストは、トップクラスのAIモデルでさえ、複雑な現実世界のタスクを処理する際の成功率が驚くほど低いことを示しています。一体何が起こっているのでしょうか？

AIエージェントが研究室から出ると、現実に打ちのめされる

近年、大規模言語モデル（LLM）を搭載したAIエージェントは、間違いなくテクノロジー業界で最もホットな話題です。私たちは、将来的には口頭で指示するだけで、AIアシスタントがレストランの予約、旅行の計画、配達の手配など、あらゆる大小の雑事を処理してくれる未来を想像しています。素晴らしいと思いませんか？

しかし、現実は常に少し厳しいものです。現在のAIエージェントは、単純で閉鎖的な環境ではうまく機能するかもしれませんが、それは教習所の練習コースで運転するようなもので、すべてが順調に進みます。しかし、現実世界の交差点、つまり予期せぬ状況、曖昧な指示、複数のタスクが入り混じる複雑な環境に置かれたとき、彼らはまだうまく対処できるでしょうか？

答えは少しがっかりさせるかもしれません。過去の多くの評価ベンチマークは、問題を単純化しすぎており、実生活の複雑さを真に反映することができませんでした。これは、一次方程式を使って数学者の能力を評価するようなもので、真の実力をまったく測定できていません。

VitaBench：AIエージェントのための「究極の試練の場」

この問題を解決するために、美団のLongCatチームはVitaBenchを立ち上げました。これは、実世界のアプリケーションにおけるLLMエージェントのパフォーマンスを評価するために特別に設計された、新しい高難易度のベンチマークです。

VitaBenchは、非常にリアルな「生活シミュレーター」と考えることができます。もはや机上の空論ではなく、AIを私たちが最もよく知る3つの主要な生活シーンに直接投入します。

フードデリバリー
店舗での消費
オンライン旅行サービス

このシミュレートされた環境はどれほど複雑なのでしょうか？店舗情報の照会、予約、注文から支払いに至るまで、考えられるほぼすべての操作を網羅する、最大66種類のツールを統合しています。

単一のタスクだけでなく、「クロスシナリオ」の連続的な挑戦

VitaBenchの中核的な課題は、そのタスク設計にあります。300の単一シナリオのタスクだけでなく、**100の非常に挑戦的な「クロスシナリオタスク」**も設計されています。

これはどういう意味でしょうか？たとえば、実際のユーザーリクエストは次のようになるかもしれません。「川の景色が見えるホテルを予約して、チェックインの夜に、ホテルの近くで評価が高く、辛くなく、予算200ドルのレストランを探してください。」

このタスクでは、AIエージェントは次のことを行う必要があります。

複雑な意図の理解： ホテルを予約するだけでなく、レストランも予約する必要があり、両者には関連性があります。
時空を超えた推論： チェックイン日、夕食の時間、ホテルとレストランの地理的な関係を処理する必要があります。
ツールの柔軟な使用： まず「ホテル予約ツール」を使用し、その結果に基づいて「レストラン検索ツール」を使用する必要があります。
積極的な明確化： ユーザーの指示が曖昧な場合、AIは「レストランの料理の種類はどのようになさいますか？」など、積極的に質問する必要があります。
動的な意図の追跡： 複数回の対話の中で、ユーザーが心変わりする可能性があり、AIはそれに追随できる必要があります。

正直なところ、これは人間にとっても少し複雑です。ましてやAIにとってはなおさらです。

残酷な成績表：トップAIも次々と「脱落」

では、この究極の試練で、今日の最も強力なAIモデルはどのように機能したのでしょうか？

結果はかなり衝撃的です。

思考モデル

ランク	モデル	平均@4	クロスシナリオ（合格）	クロスシナリオ（合格@4）	シングルシナリオ（平均@4）
1	03 (high)	30.0	6.0	61.0	53.5
2	Al Claude-4.1-Opus (w/ thinking)	29.0	56.0	6.0	47.5
3	MLongCat-Flash-Thinking	24.3	54.0	3.0	42.3
4	Gemini-2.5-Pro	23.5	53.0	5.0	49.0
5	A Claude-4-Sonnet (w/ thinking)	23.0	51.0	6.0	46.0
6	GPT-5 (high)	22.8	51.0	3.0	54.0
7	Z GLM-4.5 (w/ thinking)	22.8	48.0	2.0	44.5
8	04-mini (high)	19.5	49.0	1.0	44.5
9	Qwen3-235B-A22B-Thinking-2507	18.8	45.0	2.0	44.0
10	Doubao-Seed-1.6-Thinking	17.0	42.0	1.0	30.3
11	DeepSeek-R1-0528	14.5	39.0	0.0	40.3
12	Gemini2.5-Flash (think on)	5.3	24.0	0.0	32.0
13	Qwen3-32B (w/ thinking)	5.0	47.0	3.0	22.8

非思考モード

ランク	モデル	平均@4	クロスシナリオ（合格）	クロスシナリオ（合格@4）	シングルシナリオ（平均@4）
1	Al Claude-4.1-Opus (w/o thinking)	21.8	47.0	3.0	46.0
2	Al Claude-4-Sonnet (w/o thinking)	21.3	49.0	4.0	39.0
3	LongCat-Flash-Chat	20.3	45.0	2.0	39.5
4	GLM-4.5 (w/o thinking)	20.0	47.0	1.0	45.8
5	Qwen3-Max	18.5	3.0	47.0	37.2
6	DeepSeek-V3.2-Exp (w/o thinking)	17.7	2.0	41.0	36.2
7	DeepSeek-V3.1 (w/o thinking)	16.3	40.0	1.0	34.0
8	K Kimi-K2-0905	15.5	39.0	2.0	35.3
9	Qwen3-235B-A22B-Instruct-2507	14.3	0.0	38.0	34.3
10	GPT-4.1	13.8	0.0	35.0	37.8
11	Doubao-Seed-1.6	10.5	29.0	0.0	37.8
12	Gemini-2.5-Flash (think off)	5.8	17.0	1.0	31.0
13	Qwen3-32B (w/o thinking)	4.0	0.0	12.0	16.5
14	GPT-5 (minimal)	4.0	9.0	0.0	30.0
15	DeepSeek-V3-0324	3.8	12.0	0.0	25.3

VitaBenchが公開したリーダーボードによると、データは大きなパフォーマンスのギャップを示しています。

比較的単純な300の単一シナリオタスクでは、最もパフォーマンスの高いモデルでさえ、成功率は50％未満です。
100の複雑なクロスシナリオタスクでは、最強のモデルの成功率はわずか**30％**に急落します！

この成績表は、現在のLLMエージェントが次の点で重大な欠点があることを明確に示しています。

ドメイン切り替えの難しさ： 旅行の予約が得意なAIは、同時に食事の問題を処理するように求められると、簡単に「クラッシュ」してしまいます。
ツール選択の障害： 66種類のツールを前にして、AIはいつ、どれを使うのが最も適切なのかわからないことがよくあります。
長期的な調整能力の欠如： 複数のステップを必要とし、数回の対話にまたがる長期的なタスクの処理は、AIにとって依然として大きな課題です。

これは私たちの未来にとって何を意味するのでしょうか？

VitaBenchの登場は、AIに対する私たちの信頼を損なうためのものではありません。それどころか、それは鏡のように、現在の技術の欠点を正直に映し出し、業界全体が進むべき方向を示しています。

この研究は、AIエージェントを私たちの生活の中で真に信頼できるアシスタントにするためには、モデルの言語能力を向上させるだけでなく、複雑で動的な環境で推論、計画、タスクを実行する能力を訓練する必要があることを示しています。

VitaBenchは、開発者がより現実に近い環境でAIエージェントをテストおよび改善するための貴重なリソースを提供します。現在の30％は低く見えるかもしれませんが、これはまさに技術が離陸する前の力を蓄える段階です。

VitaBenchに関するよくある質問

Q1：VitaBenchとは一体何ですか？ A：VitaBenchは、美団のLongCatチームが開発した高難易度の評価ベンチマークで、大規模言語モデル（LLM）エージェントが、配達や旅行などのシミュレートされた実世界のシナリオで複雑な対話型タスクを実行する能力を評価するために特別に設計されています。

Q2：なぜVitaBenchのような評価ツールが必要なのですか？ A：既存の評価ツールはほとんどが単純化されすぎており、実世界のタスクの複雑さを反映できないためです。VitaBenchは、現実に近い「試験場」を提供し、複数の目標、動的な情報、複雑なツールセットを処理する際のAIエージェントの真の能力を効果的に検証し、それによって技術の実用的な応用と開発を促進します。

Q3：現在、どのAIモデルがVitaBenchで最も優れたパフォーマンスを発揮していますか？ A：公開されているリーダーボードによると、最も挑戦的なクロスシナリオタスクでは、o3（high）、Claude-4.1-Opus（w/ thinking）、LongCat-Flash-Thinkingなどのモデルがリードしていますが、それでも最高の平均成功率はわずか30％程度です。

Q4：VitaBenchについて詳しく知ったり、使用したりするにはどうすればよいですか？ A：VitaBenchプロジェクトはオープンソースです。公式ウェブサイトにアクセスして、詳細な研究論文、データセット、リーダーボードを閲覧できます。開発者は、GitHubページで関連するコードとリソースを見つけることもできます。

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

A …

tool

AIモデル描画能力対決：トップ9 LLMによるSVG生成ベンチマーク

大規模言語モデルが「ビジュアルコード」に挑戦し始めたとき、真の勝者は誰なのか？この記事では、Claude Sonnet 4.5、GPT-5.1、Gemini 3.0など9つのトップAIモデルのSVG生成ベンチマークを詳細に解析し、30のクリエイティブなプロンプトでのパフォーマンスを探り、これが開発者やデザイナーにとって何を意味するのかを分析します。コードとアートの交差点 PythonやJavaScriptを書くのが得意な人工知能が、「絵を描け」と言われたらどうなるか想像したことはありますか？ここで言っているのは、Midjourneyのようにピクセル画像を生成することではなく、SVG（スケーラブル・ベクター・グラフィックス）コードを書くことです。これは、数学者に数式を書いて猫を描かせるようなもので、狂っているように聞こえますが、これこそが現在のAI分野で最も興味深い戦場の一つなのです。最近、「LLM SVG Generation Benchmark」というベンチマークが広く注目を集めました。このテストは、現在市場で最も強力な9つのAIモデルを集め、30の極めてクリエイティブなSVG生成指示に挑戦させたものです。これは単に誰のコードが正しいかをテストするだけでなく、これらのモデルが「空間推論」と「視覚的想像力」を備えているかをテストするものでもあります。この対決の参加者リストは、Anthropic、OpenAI、GoogleからxAI、Alibabaなどのテック大手による最新の傑作を含んだ、まさにドリームチームと言えます。出場選手紹介：2025年のトップ戦力このベンチマークリストは、AIモデルの反復速度が驚くほど速いというメッセージを伝えています。現在の主要な大規模言語モデル（LLM）の最高水準を代表するこれら9人の選手を詳しく見てみましょう： Claude Sonnet 4.5 (Anthropic)：厳格なコードロジックで知られていますが、今回のアップグレード版はグラフィックロジックでも優位性を維持できるでしょうか？ Claude Opus 4.5 (Anthropic)：Anthropicのフラッグシップとして、理論上、複雑な指示を処理する際により繊細なパフォーマンスを発揮するはずです。 Grok Code Fast 1 (xAI)：314BパラメータのMoE（混合エキスパート）アーキテクチャを擁し、速度とコード生成に重点を置いた、イーロン・マスク率いるxAIの重要な戦力です。 Gemini 2.5 Pro (Google)：マルチモーダル理解において常に優れたパフォーマンスを発揮してきたGoogleの主力モデルです。 Gemini 3.0 Pro Preview (Google)：これはGoogleの次世代のプレビュー版であり、画期的なアーキテクチャの改善があるか期待させます。 DeepSeek V3.2-Exp (685B/37B MoE)：オープンソースコミュニティからの強力な挑戦者であり、膨大なパラメータ数は複雑な世界の理解力を示唆しています。 GLM-4.6 (Zhipu AI, 355B/32B MoE)：Zhipu AIの最新のイテレーションであり、コード分野における中国語圏モデルの競争力を示しています。 Qwen3-VL-235B-A22B-Thinking (Alibaba)：Alibaba Cloudの通義千問（Qwen）シリーズで、特に「Thinking」と表記されており、グラフィック生成に不可欠な思考の連鎖（CoT）プロセスが強化されていることを示唆しています。 GPT-5.1 (OpenAI)：市場のベンチマークとして、GPTシリーズの更新は常に注目の的であり、バージョン5.1は創造性において確実に向上しているはずです。なぜSVG生成はそんなに難しいのか？画像を生成することの何が難しいのか、と問うかもしれません。DALL-Eはずっと前にそれをやってのけたではないか、と。ここには重要な違いがあります。DALL-EやStable Diffusionのようなモデルが生成するのは「ピクセル」であり、適切な場所に色を塗りつぶせばよいのです。しかし、LLMによるSVG生成は「コード」を書くことです。モデルは頭の中でX/Y座標系を構築し、すべての曲線のベジェパラメータ（Bezier curves）を正確に計算し、レイヤーの重なり順のロジックを理解しなければなりません。これは目隠しをしてパズルをするようなものです。モデルは自分が描いたものを見ることができず、XML構文の理解と空間ロジックの推論だけに頼って「盲目的に描く」しかありません。モデルに空間の概念がなければ、描かれた猫の耳がお腹に生えていたり、円が奇妙な多角形になってしまったりする可能性があります。このベンチマークでは30のクリエイティブなプロンプトが使用されました。つまり、お題は単純な「赤い円を描け」ではなく、複雑なシーンの説明、抽象的な概念、あるいは精密な幾何学的構造を必要とする図形が含まれている可能性があります。これは構文の正しさだけでなく、物理的な世界の形状に対するモデルの認識も試されます。各陣営の技術的攻防今回のベンチマークでは、いくつかの興味深い技術的トレンドを観察することができます。 MoEアーキテクチャの台頭リストの中のGrok、DeepSeek、GLMなどのモデルは、MoE（混合エキスパート）アーキテクチャであることを明確に示しています。これは、モデル内部に異なるタイプのタスクを処理する「専門家」がいることを意味します。SVGを描く際、幾何計算を担当する専門家と、配色を担当する別の専門家がいるかもしれません。この分業方式は、計算効率を維持しながら、出力の精度を向上させることが理論的に可能です。「思考」能力の導入 Qwen3の名前に「Thinking」が含まれているのは非常に興味深いです。これは、モデルが最終的なコードを出力する前に、内部で思考の連鎖（Chain of Thought）による推論を行うことを表している可能性があります。精密な計算を必要とするSVGのようなタスクでは、モデルに「描く前に考えさせる」ことで、座標のずれという恥ずかしい状況を大幅に減らすことができます。クローズドソースとオープンソースのせめぎ合い GPT-5.1とClaude 4.5はクローズドソースモデルの頂点を表しており、通常は大量の人間によるフィードバック強化学習（RLHF）を経ており、人間の美意識を満足させる方法をよりよく知っています。一方、DeepSeekやQwenなどのモデルはオープンウェイトやオープンソースコミュニティの力を表しており、パラメータ数やアーキテクチャの革新において、より大胆であることが多いです。開発者とデザイナーはどう選ぶべきか？このベンチマークリストを前に、実際のワークフローにどのように適用すべきでしょうか？

Dec 2, 2025 Read →

金 …

tool

金メダルだけじゃない：Google DeepMindがIMO-Benchを発表、AI数学的推論能力の新たな基準を確立

Geminiモデルが国際数学オリンピック（IMO）で金メダル基準を達成した後、Google DeepMindは正式にIMO-Benchをリリースしました。これは単なる評価ツールではなく、AIを「問題解決」から「深層推論」へと推進する新しい基準であり、AI分野をより堅牢で創造的な数学的推論の新時代へと導くことを目指しています。 AI数学コンテストで金メダルを獲得した後、私たちは何に注目すべきか？ 2025年7月、人工知能分野は歴史的な瞬間を迎えました。Google DeepMindの先進的なGeminiモデルは、Deep Think技術を搭載し、国際数学オリンピック（IMO）で金メダル基準を達成しました。これは間違いなくAI開発における大きなマイルストーンです。しかし、この勝利の意義は、IMOレベルの難問で優れた結果を出すことだけにとどまりません。真の目標は、深層で堅牢な数学的推論を行うことができるシステムを構築することです。結局のところ、正しい答えを出すだけでは不十分であり、「なぜそうなのか」を理解し証明することが真の知能への鍵となります。この理念に基づき、EMNLP 2025会議で、Google DeepMindはIMO-Bench—一連の高度な推論ベンチマーク—を盛大に発表しました。これはGeminiの金メダル獲得の道のりで中心的な役割を果たしただけでなく、数学的推論能力においてAIコミュニティ全体に新たな扉を開くことを目指しています。では、IMO-Benchとは一体何なのか？簡単に言えば、IMO-BenchはAIモデルの数学的能力を評価するために特別に設計された「テスト問題」のセットです。しかし、これは普通の試験ではありません。すべての問題は、10人のIMO金メダリストと5人の銀メダリストからなる専門家パネルによって厳格に審査されています。 IMOの問題が難しいのは、厳密な多段階推論だけでなく、公式の枠組みを超えた創造性も必要とされるからです。これこそがIMO-Benchの核心です。AIが答えを計算できるかどうかだけでなく、AIが「考える」ことができるかどうかを重視しています。 IMO-Benchは主に3つの部分で構成されており、それぞれに重点があります。 IMO-AnswerBench：400問を含む大規模テストで、モデルが「正しい答えを出す」能力を評価することに焦点を当てています。 IMO-ProofBench：60問を含む高度な評価で、モデルが「厳密な証明プロセスを作成する」能力を検証することを目的としています。 IMO-GradingBench：1000のケースを含み、「長文の回答を自動的に評価する」技術の進歩を促進するために使用されます。このベンチマークのリリースは、コミュニティの焦点を単純な「最終的な答え」から、より重要な「証明プロセス」自体に移し、それによってAIの推論能力をより厳密に評価することを目指しています。標準的な答えを超えて：IMO-ProofBenchの挑戦これまで、私たちはAIの数学的能力を、答えの正確さだけで評価することがよくありました。しかし、これだけでは不十分です。真に数学を理解しているシステムは、厳密で有効な数学的議論を構築できる必要があります。この目的のために、IMO-BenchはIMO-ProofBenchを立ち上げ、評価を新たなレベルに引き上げました。このベンチマークには、証明を必要とする60の問題が含まれており、2つのサブセットに分けられています。基本セット（Basic）：IMOの予選から中程度の難易度の問題までをカバーし、モデルの初期開発段階での推論能力を評価するために使用されます。高度なセット（Advanced）：新しい、非常に挑戦的な問題を含み、実際のIMO試験の最高難易度をシミュレートします。テスト結果は、異なるモデル間のパフォーマンスに大きな違いがあることを示しています。基本セットでは、Gemini Deep Think（IMO Gold）が89.0%の高得点を達成しましたが、ほとんどのモデルは60%未満でした。より挑戦的な高度なセットでは、その差はさらに顕著です。Gemini以外のすべてのモデルは25%未満のスコアでしたが、Gemini Deep Thinkは現在の最先端である**65.7%**を達成しました。この成果は大きな飛躍ですが、最も強力なモデルでさえ、完璧な数学的推論への道はまだ長いことを示しています。 AIはAIの答案を採点できるのか？ProofAutoGraderの誕生人間の専門家による評価は数学的証明を検証するためのゴールドスタンダードですが、その高い時間と人件費は大規模な研究の実現可能性を制限します。この問題を解決するために、DeepMindチームはGemini 2.5 Proをベースにした自動採点ツールであるProofAutoGraderを開発しました。その動作方法は、問題の説明、候補となる解答、参照解答、および具体的な採点ガイドラインを提供し、AIが証明プロセスを自動的に採点するというものです。結果は期待できるものでした。14の公開モデルをテストした際、ProofAutoGraderの採点結果は人間の専門家の採点結果と高い相関を示し、ピアソン相関係数は基本セットと高度なセットでそれぞれ驚異的な0.96と0.93に達しました。これは、AIによる自動採点が実現可能であるだけでなく、かなり信頼できることを意味し、将来の大規模でスケーラブルなAI推論研究への道を開きます。リーダーボードから見るAI推論の真のギャップモデル高度な証明ベンチブレイクダウンクエリ日付新規 IMO 2024† USAMO 2025 Gemini Deep Think (IMO Gold) 65.7% 61.1% 2025-08-02 76.2% 69.0% Gemini Deep Think (IMO lite) 37.6% 31.7% 2025-08-20 40.5% 52.4% Gemini 2.5 Pro with (Huang & Yang, 2025) 24.8% 17.5% 2025-07-14 19.1% 52.4% Grok 4 (heavy) 23.3% 11.1% 2025-07-12 7.1% 76.2% o3 20.5% 15.1% 2025-08-04 4.8% 52.4% GPT-5 20% 15.9% 2025-09-18 33.3% 19.0% Grok 4 18.6% 17.5% 2025-08-20 16.7% 23.8% Gemini 2.5 Pro 17.6% 15.9% 2025-08-04 7.1% 33.3% o4-mini (high reasoning) 11.4% 8.7% 2025-08-04 7.1% 23.8% Kimi-K2-Instruct 7.1% 4% 2025-08-21 2.4% 21.4% Qwen3-235B 5.2% 7.1% 2025-08-21 0.0% 4.8% Claude Sonnet 4 4.8% 6.4% 2025-09-17 2.4% 2.4% DeepSeek V3 4.3% 6.3% 2025-09-16 2.4% 0.0% DeepSeek R1 3.8% 6.4% 2025-09-16 0.0% 0.0% Claude Opus 4 2.9% 0.0% 2025-08-04 2.4% 11.9% IMO-Benchのリーダーボードは興味深い現象を明らかにしています。一部のモデルには「過学習」の問題がある可能性があります。

Nov 5, 2025 Read →

A …

tool

AIは時計さえ読めない？最新のClockBenchテストがトップモデルの驚くべき弱点を明らかに

私たちはAIが全能だと思っていましたが、単純なアナログ時計がGoogle GeminiやOpenAI GPT-5などのトップモデルを打ち負かしました。最新のClockBenchベンチマークによると、人間の正解率は89.1％にも上るのに対し、最強のAIはわずか13.3％でした。この発見は、AIの視覚的推論能力における大きなギャップと、将来の発展における重要な課題を明らかにしています。私たちは人工知能の急速な進歩にしばしば驚かされます。詩を書き、コードを書き、本物そっくりの画像を生成することができ、人間の知性を超える道を着実に進んでいるように見えます。しかし、今あなたに質問をするとしたら、今日の最先端のAIは、伝統的なアナログ時計を読むことができるでしょうか？答えはあなたを驚かせるかもしれません。最近、ClockBenchという新しいAIベンチマークプラットフォームが、これらのスーパーブレインに「一撃」を与えました。その結果、Google Gemini 2.5 Proや噂のGPT-5のようなトップモデルでさえ、「時計を読む」という一見単純なタスクで、「惨憺たる」としか言いようのないパフォーマンスしか示せなかったことが明らかになりました。これは単に時間を知ることではなく、AIの推論能力に対する究極のテストですあなたは、ただの時計なのに、何がそんなに難しいのかと思うかもしれません。これこそがClockBenchの設計の巧妙さです。アナログ時計を読むことは、単に数字を認識することだけではありません。それには、より深い能力、つまり視覚的推論が必要です。AIは、時針、分針、秒針の間の空間的関係を理解し、目盛りを認識し、これらの視覚情報を統合して正確な時間の概念に変換する必要があります。このタスクの難易度は、研究者によると、DeepMindの創設者であるフランソワ・ショレが提唱したARC-AGI-2チャレンジに匹敵し、有名な「人類最後の試験」よりも難しい可能性さえあります。それは、現在のAI技術の核心的な弱点を直接突いています。間違っているだけでなく、とんでもなく間違っている ClockBenchのテスト結果は、「驚くべき」という言葉では言い表せません。データによると、人間の平均正解率は89.1％にも上ります。（ここで注意してほしいのは、彼らが選んだ時計のテストサンプルには時針と分針しかなく、目盛りがないということです）最もパフォーマンスの高いAIモデルであるGemini 2.5 Proの正解率は、わずか**13.3％**でした。さらに驚くべきことは、「間違っている」ことではなく、「どれほど間違っているか」ということです。研究者によると、人間が時間を読み間違えた場合、中央値の誤差は通常わずか3分です。これは、急いでいて少し見間違えた可能性があるため、合理的です。しかし、最もパフォーマンスの高いAIモデルの中央値の誤差は、なんと1時間にも及びました！パフォーマンスの低いモデルについては、誤差は3時間にも達しました。12時間制の時計で3時間の誤差は、ランダムに推測するのとほとんど変わりません。これは、AIが「もう少しで理解できた」のではなく、根本的に時計の仕組みを「理解」していないことを示しています。彼らは、巨大なデータベースの中から最も近いパターンを探しているだけであり、パターンが少しでも変わると、システム全体が崩壊する可能性があります。何がこれらの何千億ものパラメータを持つスーパーブレインをつまずかせたのか？ AIがこれほど間違いやすいのであれば、具体的にどのような特徴が彼らを悩ませているのでしょうか？ClockBenchのデータがその答えを示しています。モデルは、以下の種類の時計を処理する際に最もパフォーマンスが低下しました。ローマ数字の文字盤：これには、AIが形状を認識するだけでなく、別の数字体系を理解する必要があります。円形に配置された数字：数字が標準的な直立方向ではなく、円周に沿って回転して配置されている場合、AIの認識能力は大幅に低下します。複雑または鏡像の背景：文字盤の背景に妨害パターンがある場合、または時計全体が鏡像反転している場合、AIがノイズから有効な情報を抽出することは困難です。秒針のある時計：針が1本増えると、理解すべき空間的関係が1層増え、混乱の可能性も高まります。これらのタスクは、人間にとっては簡単なことですが、AIにとっては乗り越えられない障害となっています。これはまた、AIの「視覚」と人間の視覚が、根本的な論理において根本的に異なることを改めて証明しています。奇妙なパラドックス：読解力は低いが、数学者としては優秀最も興味深い部分です。これらのAIは時計を読むことができませんが、正確な時間を教えれば、それに基づいて完璧な論理的推論を行うことができます。テストによると、「時間を数時間進めたり戻したりする」、「時針を特定の角度回転させた後の時刻」、「別のタイムゾーンに換算する」などの質問をすると、多くのトップモデルの正解率は非常に高く、100％に達することさえあります。これは奇妙なパラドックスを生み出します。AIは「情報読解者」としては劣っていますが、「論理計算者」としては優れています。これは、問題の核心が視覚的知覚と解釈の最初のステップにあることを意味します。彼らは画像を抽象的な時間の概念に正確に変換することはできませんが、この概念が（人間によって）提供されると、その後の推論能力は完全に問題ありません。これは、楽譜を読むことができない音楽家が、どの音符を弾くべきかを教えられれば、壮大な曲を演奏できるようなものです。では、これは一体何を意味するのでしょうか？ ClockBenchの登場は、AIの無能さを嘲笑するためではなく、この分野全体に警鐘を鳴らすためです。それは明確に示しています。 AIの「理解」は人間とは異なる：現在のAIは、真の、包括的な文脈理解よりも、パターンマッチングに長けています。視覚的推論は大きな課題： AIに、単に「見る」だけでなく、人間のように「見て理解する」ことを教えることは、より汎用的な人工知能（AGI）への道のりにおける重要なボトルネックです。基礎研究の重要性：このような基礎的なベンチマークテストは、現在の技術の盲点を明らかにし、将来の研究開発の方向性を示す上で非常に重要です。私たちがAIのさまざまな成果に歓声を上げている一方で、ClockBenchのような研究は、前途がまだ長いことを思い出させてくれます。結局のところ、時計さえ読めない知能体に、より複雑なタスクを本当に任せることができるでしょうか？よくある質問（FAQ） Q1：なぜアナログ時計を使ってAIをテストするのですか？ A：アナログ時計は完璧なテストツールだからです。記号認識（数字、目盛り）、空間的関係の理解（針の位置）、文脈的推論（時針と分針の関係）など、複数の複雑な視覚的推論タスクを組み合わせているため、AIの総合的な視覚的理解能力を効果的に評価できます。 Q2：今回のテストで最もパフォーマンスの良かったAIモデルはどれですか？ A：テストに参加した11のトップ大規模言語モデルの中で、GoogleのGemini 2.5 Proが最も良いパフォーマンスを示しましたが、その13.3％の正解率は、人間の89.1％のレベルと比較すると、依然として大きな差があります。 Q3：これは、現在のAIが私たちが思っているほど賢くないということですか？ A：これは、AIの「知能」が人間の知能の種類とは異なることを示しています。データ処理や論理演算などの特定の分野では人間をはるかに超えていますが、総合的な知覚と文脈理解を必要とするタスクでは、明らかな弱点を示しています。ClockBenchは、その重要な盲点の1つを浮き彫りにしています。 Q4：ClockBenchに関する詳細情報はどこで入手できますか？ A：ClockBenchの公式ウェブサイトclockbench.aiにアクセスして、より詳細な研究データと情報を入手できます。

Sep 10, 2025 Read →