tool

AI 連時鐘都看不懂?ClockBench 最新測試揭示頂尖模型的驚人弱點

September 10, 2025
Updated Sep 10
1 min read

我們總以為 AI 無所不能,但一個簡單的類比時鐘卻讓 Google Gemini 和 OpenAI GPT-5 等頂尖模型紛紛敗下陣來。最新的 ClockBench 基準測試顯示,人類的準確率高達 89.1%,而最強的 AI 卻只有 13.3%。這項發現揭示了 AI 在視覺推理能力上的巨大鴻溝,以及未來發展的關鍵挑戰。


我們經常驚嘆於人工智慧的飛速進步。它們能寫詩、能編寫程式碼、能生成以假亂真的圖像,似乎正朝著超越人類智慧的道路一路狂奔。但如果現在問你一個問題:當今最頂尖的 AI,看得懂傳統的指針時鐘嗎?

答案可能會讓你大吃一驚。

最近,一個名為 ClockBench 的全新 AI 基準測試平台,就給了這些超級大腦們一個「下馬威」。結果顯示,即使是像 Google Gemini 2.5 Pro 和傳聞中的 GPT-5 這樣的頂級模型,在「讀懂時鐘」這個看似簡單的任務上,表現也只能用「慘不忍睹」來形容。

這不只是看時間,而是對 AI 推理能力的終極拷問

你可能會想,不過就是個時鐘,有什麼難的?

這正是 ClockBench 設計的巧妙之處。讀取類比時鐘不僅僅是辨識數字而已,它需要一種更深層次的能力——視覺推理。AI 必須理解時針、分針和秒針之間的空間關係,辨識刻度,並將這些視覺資訊綜合起來,轉換成一個精確的時間概念。

這項任務的難度,據研究人員表示,足以媲美 DeepMind 創辦人 François Chollet 所提出的 ARC-AGI-2 挑戰,甚至可能比知名的「人類最終大考(Humanity’s Last Exam)」還要困難。它直接戳中了當前 AI 技術的核心弱點。

不只是答錯,而是錯得離譜

ClockBench 的測試結果,用「驚人」來形容絕不為過。數據顯示:

  • 人類的平均準確率高達 89.1%。(這邊備註一下,他們選擇的時鐘測試樣本有一個只有時針跟分針,沒有刻度)
  • 表現最好的 AI 模型 Gemini 2.5 Pro,準確率卻只有 13.3%

更讓人意外的不是「答錯」,而是「錯得多離譜」。

研究人員發現,人類在讀錯時間時,中位數誤差通常只有 3 分鐘。這很合理,可能是匆忙間看錯了一點點。然而,表現最好的 AI 模型,其中位數誤差竟然長達 1 小時!至於那些表現較差的模型,誤差更是高達 3 小時左右。在一個 12 小時制的時鐘上,3 小時的誤差幾乎跟隨機亂猜沒什麼兩樣了。

這顯示出 AI 並非「差一點就看懂了」,而是在根本上就沒有真正「理解」時鐘的運作原理。它們只是在龐大的數據庫中尋找最接近的模式,一旦模式稍微改變,整個系統就可能崩潰。

是什麼絆倒了這些數千億參數的超級大腦?

既然 AI 這麼容易出錯,那麼具體是哪些特徵讓它們頭痛不已呢?ClockBench 的數據給出了答案。模型在處理以下幾種類型的時鐘時,表現最差:

  • 羅馬數字錶盤: 這需要 AI 不僅辨識形狀,還要理解另一套數字系統。
  • 環形排列的數字: 當數字不是標準的直立方向,而是沿著圓周旋轉排列時,AI 的辨識能力會大幅下降。
  • 複雜或鏡像的背景: 當錶盤背景有干擾圖案,或者整個時鐘被鏡像反轉時,AI 很難從噪音中提取有效資訊。
  • 帶有秒針的時鐘: 多一根指針,就多了一層需要理解的空間關係,也增加了混淆的機率。

這些對人類來說輕而易舉的任務,卻成了 AI 難以逾越的障礙。這也再次證明,AI 的「視覺」和人類的視覺,在底層邏輯上存在著根本的差異。

一個奇怪的悖論:糟糕的讀者,卻是優秀的數學家

最有趣的部分來了。儘管這些 AI 看不懂時鐘,但如果你告訴它一個準確的時間,它們卻能在此基礎上進行完美的邏輯推理。

測試顯示,當被問及「將時間撥快或撥慢幾小時」、「將時針旋轉特定角度後是幾點」或「換算到另一個時區」這類問題時,許多頂尖模型的準確率非常高,甚至能達到 100%。

這就形成了一個奇特的悖論:AI 是一個糟糕的「資訊讀取者」,卻是一個出色的「邏輯計算者」。

這意味著問題的核心出在視覺感知與解讀的第一步。它們無法準確地將圖像轉化為抽象的時間概念,但一旦這個概念被(由人類)提供,它們後續的推理能力是完全沒問題的。這就像一個看不懂樂譜的音樂家,只要你告訴他要彈哪些音符,他就能演奏出華麗的樂章。

所以,這到底意味著什麼?

ClockBench 的出現,並不是為了嘲笑 AI 的無能,而是為整個領域敲響了一記警鐘。它清楚地表明:

  1. AI 的「理解」與人類不同: 目前的 AI 更擅長模式匹配,而非真正的、全面的情境理解。
  2. 視覺推理是巨大挑戰: 讓 AI 學會像人一樣「看懂」世界,而不僅僅是「看到」,是通往更通用人工智慧(AGI)的關鍵瓶頸。
  3. 基礎研究的重要性: 這類基礎性的基準測試,對於暴露當前技術的盲點、指引未來的研發方向至關重要。

當我們在為 AI 的各種成就歡呼時,像 ClockBench 這樣的研究提醒著我們,前方的路依然漫長。畢竟,如果一個連時鐘都看不懂的智慧體,我們真的能放心地將更複雜的任務交給它嗎?


常見問題解答 (FAQ)

Q1: 為什麼要用類比時鐘來測試 AI?

A: 因為類比時鐘是一個完美的測試工具。它將符號辨識(數字、刻度)、空間關係理解(指針位置)和上下文推理(時針與分針的關聯)等多种複雜的視覺推理任務集於一身,能有效地評估 AI 的綜合視覺理解能力。

Q2: 這次測試中哪個 AI 模型表現最好?

A: 在所有參與測試的 11 個頂尖大型語言模型中,Google 的 Gemini 2.5 Pro 表現最好,但其 13.3% 的準確率與人類 89.1% 的水準相比,仍有巨大的差距。

Q3: 這是否表示現在的 AI 並沒有我們想像中那麼聰明?

A: 這說明 AI 的「智慧」與人類的智慧類型不同。它在數據處理、邏輯運算等特定領域遠超人類,但在需要綜合感知和情境理解的任務上,則暴露出明顯的短板。ClockBench 正是突顯了其中一個重要的盲點。

Q4: 我可以在哪裡了解更多關於 ClockBench 的資訊?

A: 您可以訪問 ClockBench 的官方網站 clockbench.ai 來獲取更詳細的研究數據和資訊。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.