我们总以为 AI 无所不能,但一个简单的类比时钟却让 Google Gemini 和 OpenAI GPT-5 等顶尖模型纷纷败下阵来。最新的 ClockBench 基准测试显示,人类的准确率高达 89.1%,而最强的 AI 却只有 13.3%。这项发现揭示了 AI 在视觉推理能力上的巨大鸿沟,以及未来发展的关键挑战。
我们经常惊叹于人工智能的飞速进步。它们能写诗、能编写代码、能生成以假乱真的图像,似乎正朝着超越人类智慧的道路一路狂奔。但如果现在问你一个问题:当今最顶尖的 AI,看得懂传统的指针时钟吗?
答案可能会让你大吃一惊。
最近,一个名为 ClockBench 的全新 AI 基准测试平台,就给了这些超级大脑们一个“下马威”。结果显示,即使是像 Google Gemini 2.5 Pro 和传闻中的 GPT-5 这样的顶级模型,在“读懂时钟”这个看似简单的任务上,表现也只能用“惨不忍睹”来形容。
这不只是看时间,而是对 AI 推理能力的终极拷问
你可能会想,不过就是个时钟,有什么难的?
这正是 ClockBench 设计的巧妙之处。读取类比时钟不仅仅是辨识数字而已,它需要一种更深层次的能力——视觉推理。AI 必须理解时针、分针和秒针之间的空间关系,辨识刻度,并将这些视觉信息综合起来,转换成一个精确的时间概念。
这项任务的难度,据研究人员表示,足以媲美 DeepMind 创办人 François Chollet 所提出的 ARC-AGI-2 挑战,甚至可能比知名的“人类最终大考(Humanity’s Last Exam)”还要困难。它直接戳中了当前 AI 技术的核心弱点。
不只是答错,而是错得离谱
ClockBench 的测试结果,用“惊人”来形容绝不为过。数据显示:
- 人类的平均准确率高达 89.1%。(这边备注一下,他们选择的时钟测试样本有一个只有时针跟分针,没有刻度)
- 表现最好的 AI 模型 Gemini 2.5 Pro,准确率却只有 13.3%。
更让人意外的不是“答错”,而是“错得多离谱”。
研究人员发现,人类在读错时间时,中位数误差通常只有 3 分钟。这很合理,可能是匆忙间看错了一点点。然而,表现最好的 AI 模型,其中位数误差竟然长达 1 小时!至于那些表现较差的模型,误差更是高达 3 小时左右。在一个 12 小时制的时钟上,3 小时的误差几乎跟随机乱猜没什么两样了。
这显示出 AI 并非“差一点就看懂了”,而是在根本上就没有真正“理解”时钟的运作原理。它们只是在庞大的数据库中寻找最接近的模式,一旦模式稍微改变,整个系统就可能崩溃。
是什么绊倒了这些数千亿参数的超级大脑?
既然 AI 这么容易出错,那么具体是哪些特征让它们头痛不已呢?ClockBench 的数据给出了答案。模型在处理以下几种类型的时钟时,表现最差:
- 罗马数字表盘: 这需要 AI 不仅辨识形状,还要理解另一套数字系统。
- 环形排列的数字: 当数字不是标准的直立方向,而是沿着圆周旋转排列时,AI 的辨识能力会大幅下降。
- 复杂或镜像的背景: 当表盘背景有干扰图案,或者整个时钟被镜像反转时,AI 很难从噪音中提取有效信息。
- 带有秒针的时钟: 多一根指针,就多了一层需要理解的空间关系,也增加了混淆的机率。
这些对人类来说轻而易举的任务,却成了 AI 难以逾越的障碍。这也再次证明,AI 的“视觉”和人类的视觉,在底层逻辑上存在着根本的差异。
一个奇怪的悖论:糟糕的读者,却是优秀的数学家
最有趣的部分来了。尽管这些 AI 看不懂时钟,但如果你告诉它一个准确的时间,它们却能在此基础上进行完美的逻辑推理。
测试显示,当被问及“将时间拨快或拨慢几小时”、“将时针旋转特定角度后是几点”或“换算到另一个时区”这类问题时,许多顶尖模型的准确率非常高,甚至能达到 100%。
这就形成了一个奇特的悖论:AI 是一个糟糕的“信息读取者”,却是一个出色的“逻辑计算者”。
这意味着问题的核心出在视觉感知与解读的第一步。它们无法准确地将图像转化为抽象的时间概念,但一旦这个概念被(由人类)提供,它们后续的推理能力是完全没问题的。这就像一个看不懂乐谱的音乐家,只要你告诉他要弹哪些音符,他就能演奏出华丽的乐章。
所以,这到底意味着什么?
ClockBench 的出现,并不是为了嘲笑 AI 的无能,而是为整个领域敲响了一记警钟。它清楚地表明:
- AI 的“理解”与人类不同: 目前的 AI 更擅长模式匹配,而非真正的、全面的情境理解。
- 视觉推理是巨大挑战: 让 AI 学会像人一样“看懂”世界,而不仅仅是“看到”,是通往更通用人工智能(AGI)的关键瓶颈。
- 基础研究的重要性: 这类基础性的基准测试,对于暴露当前技术的盲点、指引未来的研发方向至关重要。
当我们在为 AI 的各种成就欢呼时,像 ClockBench 这样的研究提醒着我们,前方的路依然漫长。毕竟,如果一个连时钟都看不懂的智慧体,我们真的能放心地将更复杂的任务交给它吗?
常见问题解答 (FAQ)
Q1: 为什么要用类比时钟来测试 AI?
A: 因为类比时钟是一个完美的测试工具。它将符号辨识(数字、刻度)、空间关系理解(指针位置)和上下文推理(时针与分针的关联)等多种复杂的视觉推理任务集于一身,能有效地评估 AI 的综合视觉理解能力。
Q2: 这次测试中哪个 AI 模型表现最好?
A: 在所有参与测试的 11 个顶尖大型语言模型中,Google 的 Gemini 2.5 Pro 表现最好,但其 13.3% 的准确率与人类 89.1% 的水准相比,仍有巨大的差距。
Q3: 这是否表示现在的 AI 并没有我们想象中那么聪明?
A: 这说明 AI 的“智慧”与人类的智慧类型不同。它在数据处理、逻辑运算等特定领域远超人类,但在需要综合感知和情境理解的任务上,则暴露出明显的短板。ClockBench 正是突显了其中一个重要的盲点。
Q4: 我可以在哪里了解更多关于 ClockBench 的信息?
A: 您可以访问 ClockBench 的官方网站 clockbench.ai 来获取更详细的研究数据和信息。


