私たちはAIが全能だと思っていましたが、単純なアナログ時計がGoogle GeminiやOpenAI GPT-5などのトップモデルを打ち負かしました。最新のClockBenchベンチマークによると、人間の正解率は89.1%にも上るのに対し、最強のAIはわずか13.3%でした。この発見は、AIの視覚的推論能力における大きなギャップと、将来の発展における重要な課題を明らかにしています。
私たちは人工知能の急速な進歩にしばしば驚かされます。詩を書き、コードを書き、本物そっくりの画像を生成することができ、人間の知性を超える道を着実に進んでいるように見えます。しかし、今あなたに質問をするとしたら、今日の最先端のAIは、伝統的なアナログ時計を読むことができるでしょうか?
答えはあなたを驚かせるかもしれません。
最近、ClockBenchという新しいAIベンチマークプラットフォームが、これらのスーパーブレインに「一撃」を与えました。その結果、Google Gemini 2.5 Proや噂のGPT-5のようなトップモデルでさえ、「時計を読む」という一見単純なタスクで、「惨憺たる」としか言いようのないパフォーマンスしか示せなかったことが明らかになりました。
これは単に時間を知ることではなく、AIの推論能力に対する究極のテストです
あなたは、ただの時計なのに、何がそんなに難しいのかと思うかもしれません。
これこそがClockBenchの設計の巧妙さです。アナログ時計を読むことは、単に数字を認識することだけではありません。それには、より深い能力、つまり視覚的推論が必要です。AIは、時針、分針、秒針の間の空間的関係を理解し、目盛りを認識し、これらの視覚情報を統合して正確な時間の概念に変換する必要があります。
このタスクの難易度は、研究者によると、DeepMindの創設者であるフランソワ・ショレが提唱したARC-AGI-2チャレンジに匹敵し、有名な「人類最後の試験」よりも難しい可能性さえあります。それは、現在のAI技術の核心的な弱点を直接突いています。
間違っているだけでなく、とんでもなく間違っている
ClockBenchのテスト結果は、「驚くべき」という言葉では言い表せません。データによると、
- 人間の平均正解率は89.1%にも上ります。(ここで注意してほしいのは、彼らが選んだ時計のテストサンプルには時針と分針しかなく、目盛りがないということです)
- 最もパフォーマンスの高いAIモデルであるGemini 2.5 Proの正解率は、わずか**13.3%**でした。
さらに驚くべきことは、「間違っている」ことではなく、「どれほど間違っているか」ということです。
研究者によると、人間が時間を読み間違えた場合、中央値の誤差は通常わずか3分です。これは、急いでいて少し見間違えた可能性があるため、合理的です。しかし、最もパフォーマンスの高いAIモデルの中央値の誤差は、なんと1時間にも及びました!パフォーマンスの低いモデルについては、誤差は3時間にも達しました。12時間制の時計で3時間の誤差は、ランダムに推測するのとほとんど変わりません。
これは、AIが「もう少しで理解できた」のではなく、根本的に時計の仕組みを「理解」していないことを示しています。彼らは、巨大なデータベースの中から最も近いパターンを探しているだけであり、パターンが少しでも変わると、システム全体が崩壊する可能性があります。
何がこれらの何千億ものパラメータを持つスーパーブレインをつまずかせたのか?
AIがこれほど間違いやすいのであれば、具体的にどのような特徴が彼らを悩ませているのでしょうか?ClockBenchのデータがその答えを示しています。モデルは、以下の種類の時計を処理する際に最もパフォーマンスが低下しました。
- ローマ数字の文字盤: これには、AIが形状を認識するだけでなく、別の数字体系を理解する必要があります。
- 円形に配置された数字: 数字が標準的な直立方向ではなく、円周に沿って回転して配置されている場合、AIの認識能力は大幅に低下します。
- 複雑または鏡像の背景: 文字盤の背景に妨害パターンがある場合、または時計全体が鏡像反転している場合、AIがノイズから有効な情報を抽出することは困難です。
- 秒針のある時計: 針が1本増えると、理解すべき空間的関係が1層増え、混乱の可能性も高まります。
これらのタスクは、人間にとっては簡単なことですが、AIにとっては乗り越えられない障害となっています。これはまた、AIの「視覚」と人間の視覚が、根本的な論理において根本的に異なることを改めて証明しています。
奇妙なパラドックス:読解力は低いが、数学者としては優秀
最も興味深い部分です。これらのAIは時計を読むことができませんが、正確な時間を教えれば、それに基づいて完璧な論理的推論を行うことができます。
テストによると、「時間を数時間進めたり戻したりする」、「時針を特定の角度回転させた後の時刻」、「別のタイムゾーンに換算する」などの質問をすると、多くのトップモデルの正解率は非常に高く、100%に達することさえあります。
これは奇妙なパラドックスを生み出します。AIは「情報読解者」としては劣っていますが、「論理計算者」としては優れています。
これは、問題の核心が視覚的知覚と解釈の最初のステップにあることを意味します。彼らは画像を抽象的な時間の概念に正確に変換することはできませんが、この概念が(人間によって)提供されると、その後の推論能力は完全に問題ありません。これは、楽譜を読むことができない音楽家が、どの音符を弾くべきかを教えられれば、壮大な曲を演奏できるようなものです。
では、これは一体何を意味するのでしょうか?
ClockBenchの登場は、AIの無能さを嘲笑するためではなく、この分野全体に警鐘を鳴らすためです。それは明確に示しています。
- AIの「理解」は人間とは異なる: 現在のAIは、真の、包括的な文脈理解よりも、パターンマッチングに長けています。
- 視覚的推論は大きな課題: AIに、単に「見る」だけでなく、人間のように「見て理解する」ことを教えることは、より汎用的な人工知能(AGI)への道のりにおける重要なボトルネックです。
- 基礎研究の重要性: このような基礎的なベンチマークテストは、現在の技術の盲点を明らかにし、将来の研究開発の方向性を示す上で非常に重要です。
私たちがAIのさまざまな成果に歓声を上げている一方で、ClockBenchのような研究は、前途がまだ長いことを思い出させてくれます。結局のところ、時計さえ読めない知能体に、より複雑なタスクを本当に任せることができるでしょうか?
よくある質問(FAQ)
Q1:なぜアナログ時計を使ってAIをテストするのですか?
A:アナログ時計は完璧なテストツールだからです。記号認識(数字、目盛り)、空間的関係の理解(針の位置)、文脈的推論(時針と分針の関係)など、複数の複雑な視覚的推論タスクを組み合わせているため、AIの総合的な視覚的理解能力を効果的に評価できます。
Q2:今回のテストで最もパフォーマンスの良かったAIモデルはどれですか?
A:テストに参加した11のトップ大規模言語モデルの中で、GoogleのGemini 2.5 Proが最も良いパフォーマンスを示しましたが、その13.3%の正解率は、人間の89.1%のレベルと比較すると、依然として大きな差があります。
Q3:これは、現在のAIが私たちが思っているほど賢くないということですか?
A:これは、AIの「知能」が人間の知能の種類とは異なることを示しています。データ処理や論理演算などの特定の分野では人間をはるかに超えていますが、総合的な知覚と文脈理解を必要とするタスクでは、明らかな弱点を示しています。ClockBenchは、その重要な盲点の1つを浮き彫りにしています。
Q4:ClockBenchに関する詳細情報はどこで入手できますか?
A:ClockBenchの公式ウェブサイトclockbench.aiにアクセスして、より詳細な研究データと情報を入手できます。


