AI IQ 大戰風雲變色!最新數據揭曉:最聰明的不是你想的那個?

AI 界的智力競賽出現驚人轉折!根據最新洩漏的真實數據,OpenAI、Google、Anthropic 的頂尖模型在不同智力測驗中各有勝負。本文將為您呈現 29 款 AI 的完整 IQ 排行,並深入剖析這份數據背後不為人知的真相。

AI 界的「奧運會」,規則比你想的更複雜

我們都習慣於尋找一個唯一的冠軍。在人工智慧的競賽中,我們也想知道:誰才是最聰明的 AI?一個名為 Tracking AI 的網站,透過定期的智力測驗,試圖回答這個問題。然而,根據最新流出的真實數據,我們發現答案遠比一個簡單的排名要複雜得多。

這場競賽不只有一個項目,而是至少有兩種不同的「考卷」:一個是 Offline Test,另一個則是 Mensa Norway 測驗。不同的 AI 在不同的考卷上,表現可能天差地遠。這就像一位運動員,可能是百米短跑冠軍,但在馬拉松項目上卻未必能奪冠。

完整 AI 智商排行榜:29 款模型真實力一次看懂

這份基於最新數據的完整排行榜,同時列出了各模型在兩種測驗中的分數。為了方便比較,我們主要以 Offline Test 的分數進行排序,但請務必留意它在 Mensa Norway 測驗中的驚人反差。

排名 (依 Offline Test)AI 模型Offline Test IQMensa Norway IQ
1OpenAI GPT-5 Pro (Vision)123136
2Gemini 2.5 Pro118137
3Claude-4 Opus118117
4OpenAI GPT-5 Pro116148
5OpenAI o3116135
6OpenAI o3 Pro109133
7Claude-4 Sonnet107119
8Grok-4103121
9OpenAI o3 Pro (Vision)100104
10Gemini 2.5 Pro (Vision)9996
11OpenAI o3 (Vision)9794
12OpenAI GPT-593115
13OpenAI o4 mini90112
14Gemini 2.5 Flash Thinking9087
15Claude-4 Sonnet (Vision)8893
16OpenAI GPT-5 (Vision)8767
17OpenAI o4 mini high8799
18DeepSeek R186101
19OpenAI o4 mini (Vision)8479
20Claude-4 Opus (Vision)8282
21Llama 4 Maverick82100
22Llama 4 Maverick (Vision)8275
23DeepSeek V37992
24Mistral7485
25GPT-4o6985
26Grok-4 (Vision)6882
27Bing Copilot6786
28GPT-4o (Vision)6564
29OpenAI GPT-5 Thinking6479

詳情請參考網站上最新資訊


數據背後的觀點:你真的看懂這份榜單了嗎?

只看排名是外行,看懂門道才是專家。這份看似簡單的表格,其實隱藏著幾個非常重要的觀點:

1. 冠軍寶座的「雙重標準」:誰才是真正的第一?

如果只看 Offline TestOpenAI GPT-5 Pro (Vision) 以 123 分拔得頭籌,似乎是當之無愧的視覺推理之王。

但請把目光移到 Mensa Norway 這一欄。OpenAI GPT-5 Pro (語言模型) 的分數竟高達 148,不僅遠超它自己在另一項測試中的表現(116),更是全場最高分!這說明什麼?這意味著「最聰明」的頭銜,完全取決於你用哪一把尺去測量。在需要視覺空間能力的測試中,一個模型可能稱王;但在考驗抽象邏輯或語言推理的測試中,另一個模型可能才是霸主。

2. AI 也會「偏科」?兩種測驗大不同

同一模型在兩項測驗中巨大的分數差異,揭示了它們存在明顯的「偏科」現象。例如:

  • OpenAI GPT-5 Pro:Offline Test 116 分,Mensa Norway 148 分,足足差了 32 分!
  • Gemini 2.5 Pro:Offline Test 118 分,Mensa Norway 137 分,也相差 19 分。

這強烈暗示,Offline TestMensa Norway 測驗的重點截然不同。前者可能更側重於像圖形辨識、空間關係等具象化的推理能力,這也是視覺模型(Vision)表現普遍不錯的原因。而後者可能更偏向於傳統智力測驗中的抽象邏輯、數字規律或語言理解,這讓頂尖的語言模型(Verbal)得以大放異彩。

3. 視覺與語言的鴻溝:同一模型的不同面貌

這份數據也讓我們看到了 AI 能力的「模態鴻溝」。以 Gemini 2.5 Pro 為例,它的語言模型在兩項測試中都取得了頂尖成績(118/137),但其視覺模型(Vision)的得分則降至(99/96)。這說明,即便底層技術同源,針對不同任務(處理文字 vs. 處理圖像)進行優化的模型,其能力表現會產生巨大差異。

4. 隱藏的黑馬與被低估的選手

如果只看前三名,你會錯過很多精彩的細節。

  • Llama 4 Maverick 的 Offline Test 分數僅為 82,看起來似乎不起眼,但它的 Mensa Norway 分數卻達到了 100,超過了許多排名在它前面的模型。
  • DeepSeek R1 同樣如此,Mensa Norway 分數(101)也相當體面。

這說明一些開源或二線模型,可能在特定的推理能力上並不遜色,它們只是沒有在所有項目上都進行極致優化。對於特定需求的用戶來說,這些「偏科」選手可能更具性價比。

結論:沒有唯一的冠軍,只有更合適的工具

總結來說,這份最新的、更真實的數據告訴我們一個重要的事實:在 AI 的世界裡,不存在一個全能的、唯一的冠軍。

將 AI 的「智力」簡化為單一的分數,是一種過度簡化的誤解。不同的模型被設計用來解決不同的問題,它們各有專長。GPT-5 Pro (Vision) 或許是你看圖解謎的最佳夥伴,而 GPT-5 Pro (語言模型) 則可能是你進行深度學術探討或邏輯分析的更強幫手。

作為使用者,我們應該做的,不是盲目追捧排名第一的模型,而是要根據自己的具體需求,去了解哪個 AI 在你需要的「考場」上表現最好。這份排行榜最大的價值,正是揭示了這種多元性,幫助我們從「誰最聰明?」的迷思中走出來,轉而思考「誰最適合我?」。

分享至:
DMflow.chat Ad
廣告

DMflow.chat

DMflow.chat: 您的智能對話夥伴,提升客戶互動體驗。

Learn More

© 2025 Communeify. All rights reserved.