AI IQ 大戰風雲變色！最新數據揭曉：最聰明的不是你想的那個？

發佈於: 2025-08-13 • 更新於: 2025-08-13 • 2 分鐘閱讀

AI 界的智力競賽出現驚人轉折！根據最新洩漏的真實數據，OpenAI、Google、Anthropic 的頂尖模型在不同智力測驗中各有勝負。本文將為您呈現 29 款 AI 的完整 IQ 排行，並深入剖析這份數據背後不為人知的真相。

AI 界的「奧運會」，規則比你想的更複雜

我們都習慣於尋找一個唯一的冠軍。在人工智慧的競賽中，我們也想知道：誰才是最聰明的 AI？一個名為 Tracking AI 的網站，透過定期的智力測驗，試圖回答這個問題。然而，根據最新流出的真實數據，我們發現答案遠比一個簡單的排名要複雜得多。

這場競賽不只有一個項目，而是至少有兩種不同的「考卷」：一個是 Offline Test，另一個則是 Mensa Norway 測驗。不同的 AI 在不同的考卷上，表現可能天差地遠。這就像一位運動員，可能是百米短跑冠軍，但在馬拉松項目上卻未必能奪冠。

完整 AI 智商排行榜：29 款模型真實力一次看懂

這份基於最新數據的完整排行榜，同時列出了各模型在兩種測驗中的分數。為了方便比較，我們主要以 Offline Test 的分數進行排序，但請務必留意它在 Mensa Norway 測驗中的驚人反差。

排名 (依 Offline Test)	AI 模型	Offline Test IQ	Mensa Norway IQ
1	OpenAI GPT-5 Pro (Vision)	123	136
2	Gemini 2.5 Pro	118	137
3	Claude-4 Opus	118	117
4	OpenAI GPT-5 Pro	116	148
5	OpenAI o3	116	135
6	OpenAI o3 Pro	109	133
7	Claude-4 Sonnet	107	119
8	Grok-4	103	121
9	OpenAI o3 Pro (Vision)	100	104
10	Gemini 2.5 Pro (Vision)	99	96
11	OpenAI o3 (Vision)	97	94
12	OpenAI GPT-5	93	115
13	OpenAI o4 mini	90	112
14	Gemini 2.5 Flash Thinking	90	87
15	Claude-4 Sonnet (Vision)	88	93
16	OpenAI GPT-5 (Vision)	87	67
17	OpenAI o4 mini high	87	99
18	DeepSeek R1	86	101
19	OpenAI o4 mini (Vision)	84	79
20	Claude-4 Opus (Vision)	82	82
21	Llama 4 Maverick	82	100
22	Llama 4 Maverick (Vision)	82	75
23	DeepSeek V3	79	92
24	Mistral	74	85
25	GPT-4o	69	85
26	Grok-4 (Vision)	68	82
27	Bing Copilot	67	86
28	GPT-4o (Vision)	65	64
29	OpenAI GPT-5 Thinking	64	79

詳情請參考網站上最新資訊

數據背後的觀點：你真的看懂這份榜單了嗎？

只看排名是外行，看懂門道才是專家。這份看似簡單的表格，其實隱藏著幾個非常重要的觀點：

1. 冠軍寶座的「雙重標準」：誰才是真正的第一？

如果只看 Offline Test，OpenAI GPT-5 Pro (Vision) 以 123 分拔得頭籌，似乎是當之無愧的視覺推理之王。

但請把目光移到 Mensa Norway 這一欄。OpenAI GPT-5 Pro (語言模型) 的分數竟高達 148，不僅遠超它自己在另一項測試中的表現（116），更是全場最高分！這說明什麼？這意味著「最聰明」的頭銜，完全取決於你用哪一把尺去測量。在需要視覺空間能力的測試中，一個模型可能稱王；但在考驗抽象邏輯或語言推理的測試中，另一個模型可能才是霸主。

2. AI 也會「偏科」？兩種測驗大不同

同一模型在兩項測驗中巨大的分數差異，揭示了它們存在明顯的「偏科」現象。例如：

OpenAI GPT-5 Pro：Offline Test 116 分，Mensa Norway 148 分，足足差了 32 分！
Gemini 2.5 Pro：Offline Test 118 分，Mensa Norway 137 分，也相差 19 分。

這強烈暗示，Offline Test 和 Mensa Norway 測驗的重點截然不同。前者可能更側重於像圖形辨識、空間關係等具象化的推理能力，這也是視覺模型（Vision）表現普遍不錯的原因。而後者可能更偏向於傳統智力測驗中的抽象邏輯、數字規律或語言理解，這讓頂尖的語言模型（Verbal）得以大放異彩。

3. 視覺與語言的鴻溝：同一模型的不同面貌

這份數據也讓我們看到了 AI 能力的「模態鴻溝」。以 Gemini 2.5 Pro 為例，它的語言模型在兩項測試中都取得了頂尖成績（118/137），但其視覺模型（Vision）的得分則降至（99/96）。這說明，即便底層技術同源，針對不同任務（處理文字 vs. 處理圖像）進行優化的模型，其能力表現會產生巨大差異。

4. 隱藏的黑馬與被低估的選手

如果只看前三名，你會錯過很多精彩的細節。

Llama 4 Maverick 的 Offline Test 分數僅為 82，看起來似乎不起眼，但它的 Mensa Norway 分數卻達到了 100，超過了許多排名在它前面的模型。
DeepSeek R1 同樣如此，Mensa Norway 分數（101）也相當體面。

這說明一些開源或二線模型，可能在特定的推理能力上並不遜色，它們只是沒有在所有項目上都進行極致優化。對於特定需求的用戶來說，這些「偏科」選手可能更具性價比。

結論：沒有唯一的冠軍，只有更合適的工具

總結來說，這份最新的、更真實的數據告訴我們一個重要的事實：在 AI 的世界裡，不存在一個全能的、唯一的冠軍。

將 AI 的「智力」簡化為單一的分數，是一種過度簡化的誤解。不同的模型被設計用來解決不同的問題，它們各有專長。GPT-5 Pro (Vision) 或許是你看圖解謎的最佳夥伴，而 GPT-5 Pro (語言模型) 則可能是你進行深度學術探討或邏輯分析的更強幫手。

作為使用者，我們應該做的，不是盲目追捧排名第一的模型，而是要根據自己的具體需求，去了解哪個 AI 在你需要的「考場」上表現最好。這份排行榜最大的價值，正是揭示了這種多元性，幫助我們從「誰最聰明？」的迷思中走出來，轉而思考「誰最適合我？」。

分享至:

DMflow.chat

DMflow.chat: 您的智能對話夥伴，提升客戶互動體驗。

Learn More

2025 年的 AI 模型市場風雲變色！OpenRouter 最新數據顯示，過去由 Google 和 Anthropic 獨霸的局面正被打 …

August 25, 2025

Google揭示Gemini的真實環境成本：一次AI提示到底消耗多少資源？

隨著 AI 技術席捲全球，其背後的能源消耗與環境影響成為熱議焦點。現在，Google 首次公開了旗下 AI 模型 Gemini 的詳細數據，揭示了單次提示所需 …

August 25, 2025

gpt-oss-120b 效能實測：為何 Amazon、Azure 提供的同款模型表現竟墊底？

針對開源模型 gpt-oss-120B，一份最新的供應商效能報告引發熱議。數據顯示，Amazon 和 Azure 等雲端巨頭提供的 API 服務，在準確度上竟 …

August 13, 2025

Perplexity AI 影音生成新紀元：Google Veo 3 加持，讓你的想法動起來！

AI 搜尋引擎 Perplexity AI 震撼推出全新影片生成功能，橫跨網頁、iOS 與 Android。Pro 與 Max 用戶獨享每月影片生成額度，品質 …

August 12, 2025

AI 為何偏愛紫色？一個 CSS 語法引發的「全球設計趨同」現象

你是否曾好奇，為何許多 AI 生成的網頁介面，按鈕總是那熟悉的紫色？這一切都要從 Tailwind CSS 創辦人的一則道歉推文說起。本文將深入探討這個有趣的 …

August 10, 2025

2025年AI終極對決：GPT-5、Claude 4、Gemini 2.5與Grok 4，你該選誰？

不再只是單純的聊天機器人！2025年，GPT-5、Claude 4、Gemini 2.5與Grok 4 正引領一場AI革命。本篇報告為您深入剖析四大模型的強 …

August 8, 2025