AI IQ 大戰風雲變色!最新數據揭曉:最聰明的不是你想的那個?
AI 界的智力競賽出現驚人轉折!根據最新洩漏的真實數據,OpenAI、Google、Anthropic 的頂尖模型在不同智力測驗中各有勝負。本文將為您呈現 29 款 AI 的完整 IQ 排行,並深入剖析這份數據背後不為人知的真相。
AI 界的「奧運會」,規則比你想的更複雜
我們都習慣於尋找一個唯一的冠軍。在人工智慧的競賽中,我們也想知道:誰才是最聰明的 AI?一個名為 Tracking AI 的網站,透過定期的智力測驗,試圖回答這個問題。然而,根據最新流出的真實數據,我們發現答案遠比一個簡單的排名要複雜得多。
這場競賽不只有一個項目,而是至少有兩種不同的「考卷」:一個是 Offline Test,另一個則是 Mensa Norway 測驗。不同的 AI 在不同的考卷上,表現可能天差地遠。這就像一位運動員,可能是百米短跑冠軍,但在馬拉松項目上卻未必能奪冠。
完整 AI 智商排行榜:29 款模型真實力一次看懂
這份基於最新數據的完整排行榜,同時列出了各模型在兩種測驗中的分數。為了方便比較,我們主要以 Offline Test 的分數進行排序,但請務必留意它在 Mensa Norway 測驗中的驚人反差。
排名 (依 Offline Test) | AI 模型 | Offline Test IQ | Mensa Norway IQ |
---|---|---|---|
1 | OpenAI GPT-5 Pro (Vision) | 123 | 136 |
2 | Gemini 2.5 Pro | 118 | 137 |
3 | Claude-4 Opus | 118 | 117 |
4 | OpenAI GPT-5 Pro | 116 | 148 |
5 | OpenAI o3 | 116 | 135 |
6 | OpenAI o3 Pro | 109 | 133 |
7 | Claude-4 Sonnet | 107 | 119 |
8 | Grok-4 | 103 | 121 |
9 | OpenAI o3 Pro (Vision) | 100 | 104 |
10 | Gemini 2.5 Pro (Vision) | 99 | 96 |
11 | OpenAI o3 (Vision) | 97 | 94 |
12 | OpenAI GPT-5 | 93 | 115 |
13 | OpenAI o4 mini | 90 | 112 |
14 | Gemini 2.5 Flash Thinking | 90 | 87 |
15 | Claude-4 Sonnet (Vision) | 88 | 93 |
16 | OpenAI GPT-5 (Vision) | 87 | 67 |
17 | OpenAI o4 mini high | 87 | 99 |
18 | DeepSeek R1 | 86 | 101 |
19 | OpenAI o4 mini (Vision) | 84 | 79 |
20 | Claude-4 Opus (Vision) | 82 | 82 |
21 | Llama 4 Maverick | 82 | 100 |
22 | Llama 4 Maverick (Vision) | 82 | 75 |
23 | DeepSeek V3 | 79 | 92 |
24 | Mistral | 74 | 85 |
25 | GPT-4o | 69 | 85 |
26 | Grok-4 (Vision) | 68 | 82 |
27 | Bing Copilot | 67 | 86 |
28 | GPT-4o (Vision) | 65 | 64 |
29 | OpenAI GPT-5 Thinking | 64 | 79 |
詳情請參考網站上最新資訊
數據背後的觀點:你真的看懂這份榜單了嗎?
只看排名是外行,看懂門道才是專家。這份看似簡單的表格,其實隱藏著幾個非常重要的觀點:
1. 冠軍寶座的「雙重標準」:誰才是真正的第一?
如果只看 Offline Test,OpenAI GPT-5 Pro (Vision) 以 123 分拔得頭籌,似乎是當之無愧的視覺推理之王。
但請把目光移到 Mensa Norway 這一欄。OpenAI GPT-5 Pro (語言模型) 的分數竟高達 148,不僅遠超它自己在另一項測試中的表現(116),更是全場最高分!這說明什麼?這意味著「最聰明」的頭銜,完全取決於你用哪一把尺去測量。在需要視覺空間能力的測試中,一個模型可能稱王;但在考驗抽象邏輯或語言推理的測試中,另一個模型可能才是霸主。
2. AI 也會「偏科」?兩種測驗大不同
同一模型在兩項測驗中巨大的分數差異,揭示了它們存在明顯的「偏科」現象。例如:
- OpenAI GPT-5 Pro:Offline Test 116 分,Mensa Norway 148 分,足足差了 32 分!
- Gemini 2.5 Pro:Offline Test 118 分,Mensa Norway 137 分,也相差 19 分。
這強烈暗示,Offline Test 和 Mensa Norway 測驗的重點截然不同。前者可能更側重於像圖形辨識、空間關係等具象化的推理能力,這也是視覺模型(Vision)表現普遍不錯的原因。而後者可能更偏向於傳統智力測驗中的抽象邏輯、數字規律或語言理解,這讓頂尖的語言模型(Verbal)得以大放異彩。
3. 視覺與語言的鴻溝:同一模型的不同面貌
這份數據也讓我們看到了 AI 能力的「模態鴻溝」。以 Gemini 2.5 Pro 為例,它的語言模型在兩項測試中都取得了頂尖成績(118/137),但其視覺模型(Vision)的得分則降至(99/96)。這說明,即便底層技術同源,針對不同任務(處理文字 vs. 處理圖像)進行優化的模型,其能力表現會產生巨大差異。
4. 隱藏的黑馬與被低估的選手
如果只看前三名,你會錯過很多精彩的細節。
- Llama 4 Maverick 的 Offline Test 分數僅為 82,看起來似乎不起眼,但它的 Mensa Norway 分數卻達到了 100,超過了許多排名在它前面的模型。
- DeepSeek R1 同樣如此,Mensa Norway 分數(101)也相當體面。
這說明一些開源或二線模型,可能在特定的推理能力上並不遜色,它們只是沒有在所有項目上都進行極致優化。對於特定需求的用戶來說,這些「偏科」選手可能更具性價比。
結論:沒有唯一的冠軍,只有更合適的工具
總結來說,這份最新的、更真實的數據告訴我們一個重要的事實:在 AI 的世界裡,不存在一個全能的、唯一的冠軍。
將 AI 的「智力」簡化為單一的分數,是一種過度簡化的誤解。不同的模型被設計用來解決不同的問題,它們各有專長。GPT-5 Pro (Vision) 或許是你看圖解謎的最佳夥伴,而 GPT-5 Pro (語言模型) 則可能是你進行深度學術探討或邏輯分析的更強幫手。
作為使用者,我們應該做的,不是盲目追捧排名第一的模型,而是要根據自己的具體需求,去了解哪個 AI 在你需要的「考場」上表現最好。這份排行榜最大的價值,正是揭示了這種多元性,幫助我們從「誰最聰明?」的迷思中走出來,轉而思考「誰最適合我?」。