AI 连时钟都看不懂？ClockBench 最新测试揭示顶尖模型的惊人弱点

我们总以为 AI 无所不能，但一个简单的类比时钟却让 Google Gemini 和 OpenAI GPT-5 等顶尖模型纷纷败下阵来。最新的 ClockBench 基准测试显示，人类的准确率高达 89.1%，而最强的 AI 却只有 13.3%。这项发现揭示了 AI 在视觉推理能力上的巨大鸿沟，以及未来发展的关键挑战。

我们经常惊叹于人工智能的飞速进步。它们能写诗、能编写代码、能生成以假乱真的图像，似乎正朝着超越人类智慧的道路一路狂奔。但如果现在问你一个问题：当今最顶尖的 AI，看得懂传统的指针时钟吗？

答案可能会让你大吃一惊。

最近，一个名为 ClockBench 的全新 AI 基准测试平台，就给了这些超级大脑们一个“下马威”。结果显示，即使是像 Google Gemini 2.5 Pro 和传闻中的 GPT-5 这样的顶级模型，在“读懂时钟”这个看似简单的任务上，表现也只能用“惨不忍睹”来形容。

这不只是看时间，而是对 AI 推理能力的终极拷问

你可能会想，不过就是个时钟，有什么难的？

这正是 ClockBench 设计的巧妙之处。读取类比时钟不仅仅是辨识数字而已，它需要一种更深层次的能力——视觉推理。AI 必须理解时针、分针和秒针之间的空间关系，辨识刻度，并将这些视觉信息综合起来，转换成一个精确的时间概念。

这项任务的难度，据研究人员表示，足以媲美 DeepMind 创办人 François Chollet 所提出的 ARC-AGI-2 挑战，甚至可能比知名的“人类最终大考（Humanity’s Last Exam）”还要困难。它直接戳中了当前 AI 技术的核心弱点。

不只是答错，而是错得离谱

ClockBench 的测试结果，用“惊人”来形容绝不为过。数据显示：

人类的平均准确率高达 89.1%。(这边备注一下，他们选择的时钟测试样本有一个只有时针跟分针，没有刻度)
表现最好的 AI 模型 Gemini 2.5 Pro，准确率却只有 13.3%。

更让人意外的不是“答错”，而是“错得多离谱”。

研究人员发现，人类在读错时间时，中位数误差通常只有 3 分钟。这很合理，可能是匆忙间看错了一点点。然而，表现最好的 AI 模型，其中位数误差竟然长达 1 小时！至于那些表现较差的模型，误差更是高达 3 小时左右。在一个 12 小时制的时钟上，3 小时的误差几乎跟随机乱猜没什么两样了。

这显示出 AI 并非“差一点就看懂了”，而是在根本上就没有真正“理解”时钟的运作原理。它们只是在庞大的数据库中寻找最接近的模式，一旦模式稍微改变，整个系统就可能崩溃。

是什么绊倒了这些数千亿参数的超级大脑？

既然 AI 这么容易出错，那么具体是哪些特征让它们头痛不已呢？ClockBench 的数据给出了答案。模型在处理以下几种类型的时钟时，表现最差：

罗马数字表盘： 这需要 AI 不仅辨识形状，还要理解另一套数字系统。
环形排列的数字： 当数字不是标准的直立方向，而是沿着圆周旋转排列时，AI 的辨识能力会大幅下降。
复杂或镜像的背景： 当表盘背景有干扰图案，或者整个时钟被镜像反转时，AI 很难从噪音中提取有效信息。
带有秒针的时钟： 多一根指针，就多了一层需要理解的空间关系，也增加了混淆的机率。

这些对人类来说轻而易举的任务，却成了 AI 难以逾越的障碍。这也再次证明，AI 的“视觉”和人类的视觉，在底层逻辑上存在着根本的差异。

一个奇怪的悖论：糟糕的读者，却是优秀的数学家

最有趣的部分来了。尽管这些 AI 看不懂时钟，但如果你告诉它一个准确的时间，它们却能在此基础上进行完美的逻辑推理。

测试显示，当被问及“将时间拨快或拨慢几小时”、“将时针旋转特定角度后是几点”或“换算到另一个时区”这类问题时，许多顶尖模型的准确率非常高，甚至能达到 100%。

这就形成了一个奇特的悖论：AI 是一个糟糕的“信息读取者”，却是一个出色的“逻辑计算者”。

这意味着问题的核心出在视觉感知与解读的第一步。它们无法准确地将图像转化为抽象的时间概念，但一旦这个概念被（由人类）提供，它们后续的推理能力是完全没问题的。这就像一个看不懂乐谱的音乐家，只要你告诉他要弹哪些音符，他就能演奏出华丽的乐章。

所以，这到底意味着什么？

ClockBench 的出现，并不是为了嘲笑 AI 的无能，而是为整个领域敲响了一记警钟。它清楚地表明：

AI 的“理解”与人类不同： 目前的 AI 更擅长模式匹配，而非真正的、全面的情境理解。
视觉推理是巨大挑战： 让 AI 学会像人一样“看懂”世界，而不仅仅是“看到”，是通往更通用人工智能（AGI）的关键瓶颈。
基础研究的重要性： 这类基础性的基准测试，对于暴露当前技术的盲点、指引未来的研发方向至关重要。

当我们在为 AI 的各种成就欢呼时，像 ClockBench 这样的研究提醒着我们，前方的路依然漫长。毕竟，如果一个连时钟都看不懂的智慧体，我们真的能放心地将更复杂的任务交给它吗？

常见问题解答 (FAQ)

Q1: 为什么要用类比时钟来测试 AI？

A: 因为类比时钟是一个完美的测试工具。它将符号辨识（数字、刻度）、空间关系理解（指针位置）和上下文推理（时针与分针的关联）等多种复杂的视觉推理任务集于一身，能有效地评估 AI 的综合视觉理解能力。

Q2: 这次测试中哪个 AI 模型表现最好？

A: 在所有参与测试的 11 个顶尖大型语言模型中，Google 的 Gemini 2.5 Pro 表现最好，但其 13.3% 的准确率与人类 89.1% 的水准相比，仍有巨大的差距。

Q3: 这是否表示现在的 AI 并没有我们想象中那么聪明？

A: 这说明 AI 的“智慧”与人类的智慧类型不同。它在数据处理、逻辑运算等特定领域远超人类，但在需要综合感知和情境理解的任务上，则暴露出明显的短板。ClockBench 正是突显了其中一个重要的盲点。

Q4: 我可以在哪里了解更多关于 ClockBench 的信息？

A: 您可以访问 ClockBench 的官方网站 clockbench.ai 来获取更详细的研究数据和信息。

分享到:

Featured Partners

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

Recommended for You

不 …

tool

不仅是夺金：Google DeepMind 推出 IMO-Bench，为 AI 数学推理能力树立新标杆

Google DeepMind 在其 Gemini 模型于国际数学奥林匹亚（IMO）竞赛达到金牌标准后，正式发布 IMO-Bench。这不只是一个评测工具，更是一套推动 AI 从「解决问题」迈向「深度推理」的全新基准，旨在引领 AI 领域进入更强健、更富创造力的数学推理新时代。 AI 数学竞赛夺金之后，我们该关注什么？ 2025 年 7 月，人工智能领域迎来了一个历史性的时刻：Google DeepMind 的先进 Gemini 模型，搭载了 Deep Think 技术，在国际数学奥林匹亚（IMO）竞赛中达到了金牌标准。这无疑是 AI 发展的重大里程碑。然而，这场胜利的意义远不止于在 IMO 等级的难题上取得优异成绩。真正的目标，是打造一个能够进行深度、稳健数学推理的系统。毕竟，只给出正确答案是不够的，理解并证明「为何如此」才是通往真正智慧的关键。正是基于这样的理念，在 EMNLP 2025 大会上，Google DeepMind 隆重推出了 IMO-Bench——一套先进的推理基准测试。它不仅在 Gemini 的夺金之路上扮演了核心角色，更旨在为整个 AI 社群推开数学推理能力的新大门。所以，IMO-Bench 到底是什么？简单来说，IMO-Bench 是一套专门用来评估 AI 模型数学能力的「考题」。但这可不是普通的考试，它的所有题目都经过了由 10 位 IMO 金牌和 5 位银牌得主组成的专家小组严格审核。 IMO 的题目之所以困难，是因为它们不仅需要严谨的多步骤推理，更需要跳脱公式框架的创造力。这也正是 IMO-Bench 的核心所在。它不只关心 AI 能否算出答案，更关心 AI 能否「思考」。 IMO-Bench 主要由三个部分组成，各有侧重： IMO-AnswerBench：大规模测试，包含 400 道题目，专注于评估模型「给出正确答案」的能力。 IMO-ProofBench：进阶评估，包含 60 道题目，旨在检验模型「撰写严谨证明过程」的能力。 IMO-GradingBench：包含 1000 个案例，用于推动「自动评估长篇答案」的技术进展。这套基准的发布，就是希望引导社群的焦点从单纯的「最终答案」转移到更为关键的「证明过程」本身，从而实现对 AI 推理能力的更严格评估。

Nov 5, 2025 Read →

L …

tool

LLM 智能体期中考：VitaBench 揭示残酷真相，顶尖模型成功率仅 30%？

当我们以为大型语言模型（LLM）驱动的 AI 智能体（Agent）无所不能时，美团 LongCat 团队发布的最新评测基准 VitaBench 却给了整个产业一记当头棒喝。这项堪称「最难模拟考」的测试显示，即使是顶尖的 AI 模型，在处理复杂的真实世界任务时，成功率也低得惊人。这究竟是怎么回事？当 AI 智能体走出实验室，现实给了它一巴掌近年来，大型语言模型（LLM）驱动的 AI 智能体（Agent）无疑是科技圈最炙手可热的话题。我们想象着，未来只要动动嘴，AI 助理就能帮我们处理预订餐厅、规划旅游、安排外送等一切大小事。听起来很美好，对吧？但现实总是有点骨感。目前的 AI 智能体，在单纯、封闭的环境下或许表现不错，就像是在驾训班的练习场开车，一切顺利。然而，一旦将它们放到真实世界的十字路口——充满了突发状况、模糊指令和多重任务的复杂环境——它们还能应付自如吗？答案可能让你有些失望。过去的许多评测基准，都过于简化问题，无法真正反映现实生活的复杂性。这就像用一元一次方程式去评估一位数学家的能力，完全没测出真本事。 VitaBench：为 AI 智能体打造的「终极试炼场」为了解决这个问题，美团的 LongCat 团队推出了 VitaBench——一个专为评测 LLM 智能体在真实世界应用中表现而设计的全新、高难度基准。你可以把 VitaBench 想象成一个极度拟真的「生活模拟器」。它不再是纸上谈兵，而是直接将 AI 丢进我们最熟悉的三大生活场景：美食外送到店消费在线旅游服务这个模拟环境有多复杂？它整合了高达 66 种不同的工具（Tools），从查询店家信息、订位、下单到支付，几乎涵盖了所有可能的操作。不只是单一任务，而是「跨场景」的连续挑战 VitaBench 的核心挑战在于它的任务设计。它不仅有 300 个单一场景的任务，更设计了 100 个极具挑战性的「跨场景任务」。这是什么概念？举个例子，一个真实的用户需求可能是：「帮我预订一家能看到河景的饭店，并在入住当晚，在饭店附近找一家评价不错、不辣的餐厅，预算 200 美元。」这个任务要求 AI 智能体：理解复杂意图：不只要订饭店，还要订餐厅，并且两者有关联。跨时空推理：需要处理入住日期、晚餐时间、饭店与餐厅的地理位置关系。灵活使用工具：必须先用「饭店预订工具」，再根据结果使用「餐厅搜寻工具」。主动澄清：如果用户指令模糊，AI 需要主动追问，例如「您希望的餐厅是哪种菜系？」追踪动态意图：在多轮对话中，用户可能会改变主意，AI 需要能跟上节奏。老实说，这对人类来说都有点复杂，更何况是 AI？残酷的成绩单：顶尖 AI 也纷纷「阵亡」那么，在这场终极试炼中，当今最强大的 AI 模型们表现如何呢？

Oct 21, 2025 Read →

A …

tool

AI 模型最新排名出炉：为何最强大的模型不一定每次都赢？

探索最新的 AI 模型任务完成度评测报告 TaskBench。令人惊讶的是，Gemini 2.5 Flash 等模型在特定任务上的表现超越了许多知名的大型模型。本文将深入解析评测结果，并探讨为何“更大”不等于“更好”。 AI 世界的风向变了？新评测揭示惊人结果在人工智能的领域里，我们总是在追逐下一个更强大、更聪明的模型。从 GPT 系列到 Claude，再到 Gemini，各大巨头的军备竞赛似乎永无止境。但如果比较的标准不只是学术测验，而是真实世界中的任务完成能力，结果会是如何？最近，一份名为 TaskBench 的综合评测报告引起了广泛关注。这份报告不玩虚的，它直接测试各大语言模型在处理实际工作时的表现。结果呢？可以说是有点出乎意料。Google 的 Gemini 2.5 Flash 最新版本在整体任务完成度上名列前茅，在某些方面甚至超越了那些听起来更“重量级”的对手。这份报告不仅仅是一张排名表，它更像一面镜子，反映出 AI 在实用性层面的真实样貌。所以，TaskBench 到底是什么？在我们深入探讨排名之前，得先聊聊 TaskBench 是什么，以及它为何如此重要。简单来说，TaskBench 是一个全面的评估套件，专门用来测试语言模型处理真实世界 AI 任务的能力。它和那些偏重学术理论的基准测试不太一样，TaskBench 更关心的是“这东西到底能不能用”。它的评估方式很实际：每一个测试样本都模拟一次 API 请求，包含结构化的输入和输出，完全比照开发者在实际应用中会遇到的情况。这代表 TaskBench 的分数，直接反映了一个模型在接到具体指令时，能否漂亮地完成任务。最新 AI 模型任务完成度排行榜好了，话不多说，直接来看数据。这份榜单根据模型在三大核心能力上的表现进行排名：情境理解 (Context)、SQL 生成和代理能力 (Agents)。分数代表模型成功完成任务的百分比。排名模型情境理解 (Context) SQL 生成 (SQL) 代理能力 (Agents) #1 grok-4-fast-reasoning 95.0% 94.2% 93.0% #2 gemini-flash-latest 93.3% 95.8% 87.0% #3 grok-4 88.3% 95.8% 91.0% #4 claude-sonnet-4 96.7% 90.0% 89.0% #5 o3 93.3% 93.3% 91.0% #6 claude-opus-4.1 91.7% 95.0% 87.0% #7 claude-sonnet-4.5 98.3% 95.0% 85.0% #8 glm-4.5 90.0% 95.0% 83.0% #9 gpt-5-mini 96.7% 95.0% 83.0% #10 claude-opus-4 93.3% 94.2% 83.0% #11 gpt-5 88.3% 95.0% 87.0% #12 o1 91.7% 96.7% 75.0% #13 claude-3.5-sonnet 90.0% 91.7% 85.0% #14 grok-3 86.7% 91.7% 81.0% #15 claude-3.7-sonnet 86.7% 94.2% 83.0% #16 gemini-2.5-flash 93.3% 93.3% 77.0% #17 o4-mini 88.3% 94.2% 87.0% #18 gpt-oss-120b 88.3% 94.2% 85.0% #19 gemini-2.5-pro 93.3% 91.7% 75.0% #20 gpt-4.1 83.3% 96.7% 83.0% 想看完整的 48 个模型排名和详细数据吗？可以前往 Opper 的官方页面查看。

Oct 9, 2025 Read →