AI 界的智力竞赛出现惊人转折!根据最新泄露的真实数据,OpenAI、Google、Anthropic 的顶尖模型在不同智力测验中各有胜负。本文将为您呈现 29 款 AI 的完整 IQ 排行,并深入剖析这份数据背后不为人知的真相。
AI 界的「奥运会」,规则比你想的更复杂
我们都习惯于寻找一个唯一的冠军。在人工智能的竞赛中,我们也想知道:谁才是最聪明的 AI?一个名为 Tracking AI 的网站,通过定期的智力测验,试图回答这个问题。然而,根据最新流出的真实数据,我们发现答案远比一个简单的排名要复杂得多。
这场竞赛不只有一个项目,而是至少有两种不同的「考卷」:一个是 Offline Test,另一个则是 Mensa Norway 测验。不同的 AI 在不同的考卷上,表现可能天差地远。这就像一位运动员,可能是百米短跑冠军,但在马拉松项目上却未必能夺冠。
完整 AI 智商排行榜:29 款模型真实力一次看懂
这份基于最新数据的完整排行榜,同时列出了各模型在两种测验中的分数。为了方便比较,我们主要以 Offline Test 的分数进行排序,但请务必留意它在 Mensa Norway 测验中的惊人反差。
| 排名 (依 Offline Test) | AI 模型 | Offline Test IQ | Mensa Norway IQ |
|---|---|---|---|
| 1 | OpenAI GPT-5 Pro (Vision) | 123 | 136 |
| 2 | Gemini 2.5 Pro | 118 | 137 |
| 3 | Claude-4 Opus | 118 | 117 |
| 4 | OpenAI GPT-5 Pro | 116 | 148 |
| 5 | OpenAI o3 | 116 | 135 |
| 6 | OpenAI o3 Pro | 109 | 133 |
| 7 | Claude-4 Sonnet | 107 | 119 |
| 8 | Grok-4 | 103 | 121 |
| 9 | OpenAI o3 Pro (Vision) | 100 | 104 |
| 10 | Gemini 2.5 Pro (Vision) | 99 | 96 |
| 11 | OpenAI o3 (Vision) | 97 | 94 |
| 12 | OpenAI GPT-5 | 93 | 115 |
| 13 | OpenAI o4 mini | 90 | 112 |
| 14 | Gemini 2.5 Flash Thinking | 90 | 87 |
| 15 | Claude-4 Sonnet (Vision) | 88 | 93 |
| 16 | OpenAI GPT-5 (Vision) | 87 | 67 |
| 17 | OpenAI o4 mini high | 87 | 99 |
| 18 | DeepSeek R1 | 86 | 101 |
| 19 | OpenAI o4 mini (Vision) | 84 | 79 |
| 20 | Claude-4 Opus (Vision) | 82 | 82 |
| 21 | Llama 4 Maverick | 82 | 100 |
| 22 | Llama 4 Maverick (Vision) | 82 | 75 |
| 23 | DeepSeek V3 | 79 | 92 |
| 24 | Mistral | 74 | 85 |
| 25 | GPT-4o | 69 | 85 |
| 26 | Grok-4 (Vision) | 68 | 82 |
| 27 | Bing Copilot | 67 | 86 |
| 28 | GPT-4o (Vision) | 65 | 64 |
| 29 | OpenAI GPT-5 Thinking | 64 | 79 |
详情请参考网站上最新信息
数据背后的观点:你真的看懂这份榜单了吗?
只看排名是外行,看懂门道才是专家。这份看似简单的表格,其实隐藏着几个非常重要的观点:
1. 冠军宝座的「双重标准」:谁才是真正的第一?
如果只看 Offline Test,OpenAI GPT-5 Pro (Vision) 以 123 分拔得头筹,似乎是当之无愧的视觉推理之王。
但请把目光移到 Mensa Norway 这一栏。OpenAI GPT-5 Pro (语言模型) 的分数竟高达 148,不仅远超它自己在另一项测试中的表现(116),更是全场最高分!这说明什么?这意味着「最聪明」的头衔,完全取决于你用哪一把尺去测量。在需要视觉空间能力的测试中,一个模型可能称王;但在考验抽象逻辑或语言推理的测试中,另一个模型可能才是霸主。
2. AI 也会「偏科」?两种测验大不同
同一模型在两项测验中巨大的分数差异,揭示了它们存在明显的「偏科」现象。例如:
- OpenAI GPT-5 Pro:Offline Test 116 分,Mensa Norway 148 分,足足差了 32 分!
- Gemini 2.5 Pro:Offline Test 118 分,Mensa Norway 137 分,也相差 19 分。
这强烈暗示,Offline Test 和 Mensa Norway 测验的重点截然不同。前者可能更侧重于像图形辨识、空间关系等具象化的推理能力,这也是视觉模型(Vision)表现普遍不错的原因。而后者可能更偏向于传统智力测验中的抽象逻辑、数字规律或语言理解,这让顶尖的语言模型(Verbal)得以大放异彩。
3. 视觉与语言的鸿沟:同一模型的不同面貌
这份数据也让我们看到了 AI 能力的「模态鸿沟」。以 Gemini 2.5 Pro 为例,它的语言模型在两项测试中都取得了顶尖成绩(118/137),但其视觉模型(Vision)的得分则降至(99/96)。这说明,即便底层技术同源,针对不同任务(处理文字 vs. 处理图像)进行优化的模型,其能力表现会产生巨大差异。
4. 隐藏的黑马与被低估的选手
如果只看前三名,你会错过很多精彩的细节。
- Llama 4 Maverick 的 Offline Test 分数仅为 82,看起来似乎不起眼,但它的 Mensa Norway 分数却达到了 100,超过了许多排名在它前面的模型。
- DeepSeek R1 同样如此,Mensa Norway 分数(101)也相当体面。
这说明一些开源或二线模型,可能在特定的推理能力上并不逊色,它们只是没有在所有项目上都进行极致优化。对于特定需求的用户来说,这些「偏科」选手可能更具性价比。
结论:没有唯一的冠军,只有更合适的工具
总结来说,这份最新的、更真实的数据告诉我们一个重要的事实:在 AI 的世界里,不存在一个全能的、唯一的冠军。
将 AI 的「智力」简化为单一的分数,是一种过度简化的误解。不同的模型被设计用来解决不同的问题,它们各有专长。GPT-5 Pro (Vision) 或许是你看图解谜的最佳伙伴,而 GPT-5 Pro (语言模型) 则可能是你进行深度学术探讨或逻辑分析的更强帮手。
作为使用者,我们应该做的,不是盲目追捧排名第一的模型,而是要根据自己的具体需求,去了解哪个 AI 在你需要的「考场」上表现最好。这份排行榜最大的价值,正是揭示了这种多元性,帮助我们从「谁最聪明?」的迷思中走出来,转而思考「谁最适合我?」。


