AI 連時鐘都看不懂？ClockBench 最新測試揭示頂尖模型的驚人弱點

我們總以為 AI 無所不能，但一個簡單的類比時鐘卻讓 Google Gemini 和 OpenAI GPT-5 等頂尖模型紛紛敗下陣來。最新的 ClockBench 基準測試顯示，人類的準確率高達 89.1%，而最強的 AI 卻只有 13.3%。這項發現揭示了 AI 在視覺推理能力上的巨大鴻溝，以及未來發展的關鍵挑戰。

我們經常驚嘆於人工智慧的飛速進步。它們能寫詩、能編寫程式碼、能生成以假亂真的圖像，似乎正朝著超越人類智慧的道路一路狂奔。但如果現在問你一個問題：當今最頂尖的 AI，看得懂傳統的指針時鐘嗎？

答案可能會讓你大吃一驚。

最近，一個名為 ClockBench 的全新 AI 基準測試平台，就給了這些超級大腦們一個「下馬威」。結果顯示，即使是像 Google Gemini 2.5 Pro 和傳聞中的 GPT-5 這樣的頂級模型，在「讀懂時鐘」這個看似簡單的任務上，表現也只能用「慘不忍睹」來形容。

這不只是看時間，而是對 AI 推理能力的終極拷問

你可能會想，不過就是個時鐘，有什麼難的？

這正是 ClockBench 設計的巧妙之處。讀取類比時鐘不僅僅是辨識數字而已，它需要一種更深層次的能力——視覺推理。AI 必須理解時針、分針和秒針之間的空間關係，辨識刻度，並將這些視覺資訊綜合起來，轉換成一個精確的時間概念。

這項任務的難度，據研究人員表示，足以媲美 DeepMind 創辦人 François Chollet 所提出的 ARC-AGI-2 挑戰，甚至可能比知名的「人類最終大考（Humanity’s Last Exam）」還要困難。它直接戳中了當前 AI 技術的核心弱點。

不只是答錯，而是錯得離譜

ClockBench 的測試結果，用「驚人」來形容絕不為過。數據顯示：

人類的平均準確率高達 89.1%。(這邊備註一下，他們選擇的時鐘測試樣本有一個只有時針跟分針，沒有刻度)
表現最好的 AI 模型 Gemini 2.5 Pro，準確率卻只有 13.3%。

更讓人意外的不是「答錯」，而是「錯得多離譜」。

研究人員發現，人類在讀錯時間時，中位數誤差通常只有 3 分鐘。這很合理，可能是匆忙間看錯了一點點。然而，表現最好的 AI 模型，其中位數誤差竟然長達 1 小時！至於那些表現較差的模型，誤差更是高達 3 小時左右。在一個 12 小時制的時鐘上，3 小時的誤差幾乎跟隨機亂猜沒什麼兩樣了。

這顯示出 AI 並非「差一點就看懂了」，而是在根本上就沒有真正「理解」時鐘的運作原理。它們只是在龐大的數據庫中尋找最接近的模式，一旦模式稍微改變，整個系統就可能崩潰。

是什麼絆倒了這些數千億參數的超級大腦？

既然 AI 這麼容易出錯，那麼具體是哪些特徵讓它們頭痛不已呢？ClockBench 的數據給出了答案。模型在處理以下幾種類型的時鐘時，表現最差：

羅馬數字錶盤： 這需要 AI 不僅辨識形狀，還要理解另一套數字系統。
環形排列的數字： 當數字不是標準的直立方向，而是沿著圓周旋轉排列時，AI 的辨識能力會大幅下降。
複雜或鏡像的背景： 當錶盤背景有干擾圖案，或者整個時鐘被鏡像反轉時，AI 很難從噪音中提取有效資訊。
帶有秒針的時鐘： 多一根指針，就多了一層需要理解的空間關係，也增加了混淆的機率。

這些對人類來說輕而易舉的任務，卻成了 AI 難以逾越的障礙。這也再次證明，AI 的「視覺」和人類的視覺，在底層邏輯上存在著根本的差異。

一個奇怪的悖論：糟糕的讀者，卻是優秀的數學家

最有趣的部分來了。儘管這些 AI 看不懂時鐘，但如果你告訴它一個準確的時間，它們卻能在此基礎上進行完美的邏輯推理。

測試顯示，當被問及「將時間撥快或撥慢幾小時」、「將時針旋轉特定角度後是幾點」或「換算到另一個時區」這類問題時，許多頂尖模型的準確率非常高，甚至能達到 100%。

這就形成了一個奇特的悖論：AI 是一個糟糕的「資訊讀取者」，卻是一個出色的「邏輯計算者」。

這意味著問題的核心出在視覺感知與解讀的第一步。它們無法準確地將圖像轉化為抽象的時間概念，但一旦這個概念被（由人類）提供，它們後續的推理能力是完全沒問題的。這就像一個看不懂樂譜的音樂家，只要你告訴他要彈哪些音符，他就能演奏出華麗的樂章。

所以，這到底意味著什麼？

ClockBench 的出現，並不是為了嘲笑 AI 的無能，而是為整個領域敲響了一記警鐘。它清楚地表明：

AI 的「理解」與人類不同： 目前的 AI 更擅長模式匹配，而非真正的、全面的情境理解。
視覺推理是巨大挑戰： 讓 AI 學會像人一樣「看懂」世界，而不僅僅是「看到」，是通往更通用人工智慧（AGI）的關鍵瓶頸。
基礎研究的重要性： 這類基礎性的基準測試，對於暴露當前技術的盲點、指引未來的研發方向至關重要。

當我們在為 AI 的各種成就歡呼時，像 ClockBench 這樣的研究提醒著我們，前方的路依然漫長。畢竟，如果一個連時鐘都看不懂的智慧體，我們真的能放心地將更複雜的任務交給它嗎？

常見問題解答 (FAQ)

Q1: 為什麼要用類比時鐘來測試 AI？

A: 因為類比時鐘是一個完美的測試工具。它將符號辨識（數字、刻度）、空間關係理解（指針位置）和上下文推理（時針與分針的關聯）等多种複雜的視覺推理任務集於一身，能有效地評估 AI 的綜合視覺理解能力。

Q2: 這次測試中哪個 AI 模型表現最好？

A: 在所有參與測試的 11 個頂尖大型語言模型中，Google 的 Gemini 2.5 Pro 表現最好，但其 13.3% 的準確率與人類 89.1% 的水準相比，仍有巨大的差距。

Q3: 這是否表示現在的 AI 並沒有我們想像中那麼聰明？

A: 這說明 AI 的「智慧」與人類的智慧類型不同。它在數據處理、邏輯運算等特定領域遠超人類，但在需要綜合感知和情境理解的任務上，則暴露出明顯的短板。ClockBench 正是突顯了其中一個重要的盲點。

Q4: 我可以在哪裡了解更多關於 ClockBench 的資訊？

A: 您可以訪問 ClockBench 的官方網站 clockbench.ai 來獲取更詳細的研究數據和資訊。

分享至:

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

A …

tool

AI 模型繪圖能力大對決：9 款頂尖 LLM 的 SVG 生成實測

當大型語言模型開始挑戰「視覺程式碼」，誰才是真正的贏家？本文深入解析 Claude Sonnet 4.5、GPT-5.1、Gemini 3.0 等 9 款頂尖 AI 模型的 SVG 生成評測，探討這些模型在 30 個創意提示詞下的表現，並分析這對開發者與設計師意味著什麼。程式碼與藝術的交匯點你有沒有想過，那些擅長寫 Python 或 JavaScript 的人工智慧，如果被要求「畫畫」會發生什麼事？這裡指的不是像 Midjourney 那樣生成像素圖片，而是撰寫 SVG（可縮放向量圖形）程式碼。這就像是要求一個數學家透過寫公式來畫出一隻貓，聽起來很瘋狂，但這正是目前 AI 領域最有趣的戰場之一。最近一項名為「LLM SVG Generation Benchmark」的評測引起了廣泛關注。這項測試集結了目前市面上最強大的 9 款 AI 模型，讓它們挑戰 30 個極具創意的 SVG 生成指令。這不單是測試誰的程式碼寫得對，更是測試這些模型是否具備「空間推理」與「視覺想像」的能力。這場對決的參賽者名單堪稱夢幻陣容，包含了從 Anthropic、OpenAI、Google 到 xAI 和阿里巴巴等科技巨頭的最新力作。參賽選手介紹：2025 年的頂尖戰力這份評測名單透露出一個訊息，AI 模型的迭代速度簡直快得驚人。讓我們仔細看看這 9 位選手，它們代表了目前大型語言模型（LLM）的最高水準： Claude Sonnet 4.5 (Anthropic)：向來以寫程式邏輯嚴謹著稱，這次升級版能否在圖形邏輯上延續優勢？ Claude Opus 4.5 (Anthropic)：作為 Anthropic 的旗艦款，理論上在處理複雜指令時應有更細膩的表現。 Grok Code Fast 1 (xAI)：擁有 314B 參數的 MoE（混合專家）架構，主打速度與程式碼生成，是馬斯克旗下 xAI 的重要戰力。 Gemini 2.5 Pro (Google)：Google 的主力模型，在多模態理解上一直表現不俗。 Gemini 3.0 Pro Preview (Google)：這是 Google 下一代的預覽版，讓人期待是否有突破性的架構改進。 DeepSeek V3.2-Exp (685B/37B MoE)：來自開源社群的強大挑戰者，龐大的參數量暗示了它對複雜世界的理解力。 GLM-4.6 (Zhipu AI, 355B/32B MoE)：智譜 AI 的最新迭代，展現了中文語系模型在程式碼領域的競爭力。 Qwen3-VL-235B-A22B-Thinking (Alibaba)：阿里雲的通義千問系列，特別標註了「Thinking」，暗示其強化了推論過程（CoT），這對圖形生成至關重要。 GPT-5.1 (OpenAI)：作為市場的標竿，GPT 系列的每一次更新都是眾人焦點，5.1 版本勢必在創造力上有所提升。為什麼 SVG 生成這麼難？或許你會問，生成一張圖有什麼難的？DALL-E 不早就做到了嗎？

Dec 2, 2025 Read →

不 …

tool

不僅是奪金：Google DeepMind 推出 IMO-Bench，為 AI 數學推理能力樹立新標竿

Google DeepMind 在其 Gemini 模型於國際數學奧林匹亞（IMO）競賽達到金牌標準後，正式發布 IMO-Bench。這不只是一個評測工具，更是一套推動 AI 從「解決問題」邁向「深度推理」的全新基準，旨在引領 AI 領域進入更強健、更富創造力的數學推理新時代。 AI 數學競賽奪金之後，我們該關注什麼？ 2025 年 7 月，人工智慧領域迎來了一個歷史性的時刻：Google DeepMind 的先進 Gemini 模型，搭載了 Deep Think 技術，在國際數學奧林匹亞（IMO）競賽中達到了金牌標準。這無疑是 AI 發展的重大里程碑。然而，這場勝利的意義遠不止於在 IMO 等級的難題上取得優異成績。真正的目標，是打造一個能夠進行深度、穩健數學推理的系統。畢竟，只給出正確答案是不夠的，理解並證明「為何如此」才是通往真正智慧的關鍵。正是基於這樣的理念，在 EMNLP 2025 大會上，Google DeepMind 隆重推出了 IMO-Bench——一套先進的推理基準測試。它不僅在 Gemini 的奪金之路上扮演了核心角色，更旨在為整個 AI 社群推開數學推理能力的新大門。所以，IMO-Bench 到底是什麼？簡單來說，IMO-Bench 是一套專門用來評估 AI 模型數學能力的「考題」。但這可不是普通的考試，它的所有題目都經過了由 10 位 IMO 金牌和 5 位銀牌得主組成的專家小組嚴格審核。 IMO 的題目之所以困難，是因為它們不僅需要嚴謹的多步驟推理，更需要跳脫公式框架的創造力。這也正是 IMO-Bench 的核心所在。它不只關心 AI 能否算出答案，更關心 AI 能否「思考」。 IMO-Bench 主要由三個部分組成，各有側重： IMO-AnswerBench：大規模測試，包含 400 道題目，專注於評估模型「給出正確答案」的能力。 IMO-ProofBench：進階評估，包含 60 道題目，旨在檢驗模型「撰寫嚴謹證明過程」的能力。 IMO-GradingBench：包含 1000 個案例，用於推動「自動評估長篇答案」的技術進展。這套基準的發布，就是希望引導社群的焦點從單純的「最終答案」轉移到更為關鍵的「證明過程」本身，從而實現對 AI 推理能力的更嚴格評估。

Nov 5, 2025 Read →

L …

tool

LLM 智慧體期中考：VitaBench 揭示殘酷真相，頂尖模型成功率僅 30%？

當我們以為大型語言模型（LLM）驅動的 AI 智慧體（Agent）無所不能時，美團 LongCat 團隊發布的最新評測基準 VitaBench 卻給了整個產業一記當頭棒喝。這項堪稱「最難模擬考」的測試顯示，即使是頂尖的 AI 模型，在處理複雜的真實世界任務時，成功率也低得驚人。這究竟是怎麼回事？當 AI 智慧體走出實驗室，現實給了它一巴掌近年來，大型語言模型（LLM）驅動的 AI 智慧體（Agent）無疑是科技圈最炙手可熱的話題。我們想像著，未來只要動動嘴，AI 助理就能幫我們處理預訂餐廳、規劃旅遊、安排外送等一切大小事。聽起來很美好，對吧？但現實總是有點骨感。目前的 AI 智慧體，在單純、封閉的環境下或許表現不錯，就像是在駕訓班的練習場開車，一切順利。然而，一旦將它們放到真實世界的十字路口——充滿了突發狀況、模糊指令和多重任務的複雜環境——它們還能應付自如嗎？答案可能讓你有些失望。過去的許多評測基準，都過於簡化問題，無法真正反映現實生活的複雜性。這就像用一元一次方程式去評估一位數學家的能力，完全沒測出真本事。 VitaBench：為 AI 智慧體打造的「終極試煉場」為了解決這個問題，美團的 LongCat 團隊推出了 VitaBench——一個專為評測 LLM 智慧體在真實世界應用中表現而設計的全新、高難度基準。你可以把 VitaBench 想像成一個極度擬真的「生活模擬器」。它不再是紙上談兵，而是直接將 AI 丟進我們最熟悉的三大生活場景：美食外送到店消費線上旅遊服務這個模擬環境有多複雜？它整合了高達 66 種不同的工具（Tools），從查詢店家資訊、訂位、下單到支付，幾乎涵蓋了所有可能的操作。不只是單一任務，而是「跨場景」的連續挑戰 VitaBench 的核心挑戰在於它的任務設計。它不僅有 300 個單一場景的任務，更設計了 100 個極具挑戰性的「跨場景任務」。這是什麼概念？舉個例子，一個真實的用戶需求可能是：「幫我預訂一家能看到河景的飯店，並在入住當晚，在飯店附近找一家評價不錯、不辣的餐廳，預算 200 美元。」這個任務要求 AI 智慧體：理解複雜意圖：不只要訂飯店，還要訂餐廳，並且兩者有關聯。跨時空推理：需要處理入住日期、晚餐時間、飯店與餐廳的地理位置關係。靈活使用工具：必須先用「飯店預訂工具」，再根據結果使用「餐廳搜尋工具」。主動澄清：如果用戶指令模糊，AI 需要主動追問，例如「您希望的餐廳是哪種菜系？」追蹤動態意圖：在多輪對話中，用戶可能會改變主意，AI 需要能跟上節奏。老實說，這對人類來說都有點複雜，更何況是 AI？殘酷的成績單：頂尖 AI 也紛紛「陣亡」那麼，在這場終極試煉中，當今最強大的 AI 模型們表現如何呢？

Oct 21, 2025 Read →