news

AI IQ 大战风云变色!最新数据揭晓:最聪明的不是你想的那个?

August 13, 2025
Updated Aug 13
2 min read

AI 界的智力竞赛出现惊人转折!根据最新泄露的真实数据,OpenAI、Google、Anthropic 的顶尖模型在不同智力测验中各有胜负。本文将为您呈现 29 款 AI 的完整 IQ 排行,并深入剖析这份数据背后不为人知的真相。

AI 界的「奥运会」,规则比你想的更复杂

我们都习惯于寻找一个唯一的冠军。在人工智能的竞赛中,我们也想知道:谁才是最聪明的 AI?一个名为 Tracking AI 的网站,通过定期的智力测验,试图回答这个问题。然而,根据最新流出的真实数据,我们发现答案远比一个简单的排名要复杂得多。

这场竞赛不只有一个项目,而是至少有两种不同的「考卷」:一个是 Offline Test,另一个则是 Mensa Norway 测验。不同的 AI 在不同的考卷上,表现可能天差地远。这就像一位运动员,可能是百米短跑冠军,但在马拉松项目上却未必能夺冠。

完整 AI 智商排行榜:29 款模型真实力一次看懂

这份基于最新数据的完整排行榜,同时列出了各模型在两种测验中的分数。为了方便比较,我们主要以 Offline Test 的分数进行排序,但请务必留意它在 Mensa Norway 测验中的惊人反差。

排名 (依 Offline Test)AI 模型Offline Test IQMensa Norway IQ
1OpenAI GPT-5 Pro (Vision)123136
2Gemini 2.5 Pro118137
3Claude-4 Opus118117
4OpenAI GPT-5 Pro116148
5OpenAI o3116135
6OpenAI o3 Pro109133
7Claude-4 Sonnet107119
8Grok-4103121
9OpenAI o3 Pro (Vision)100104
10Gemini 2.5 Pro (Vision)9996
11OpenAI o3 (Vision)9794
12OpenAI GPT-593115
13OpenAI o4 mini90112
14Gemini 2.5 Flash Thinking9087
15Claude-4 Sonnet (Vision)8893
16OpenAI GPT-5 (Vision)8767
17OpenAI o4 mini high8799
18DeepSeek R186101
19OpenAI o4 mini (Vision)8479
20Claude-4 Opus (Vision)8282
21Llama 4 Maverick82100
22Llama 4 Maverick (Vision)8275
23DeepSeek V37992
24Mistral7485
25GPT-4o6985
26Grok-4 (Vision)6882
27Bing Copilot6786
28GPT-4o (Vision)6564
29OpenAI GPT-5 Thinking6479

详情请参考网站上最新信息


数据背后的观点:你真的看懂这份榜单了吗?

只看排名是外行,看懂门道才是专家。这份看似简单的表格,其实隐藏着几个非常重要的观点:

1. 冠军宝座的「双重标准」:谁才是真正的第一?

如果只看 Offline TestOpenAI GPT-5 Pro (Vision) 以 123 分拔得头筹,似乎是当之无愧的视觉推理之王。

但请把目光移到 Mensa Norway 这一栏。OpenAI GPT-5 Pro (语言模型) 的分数竟高达 148,不仅远超它自己在另一项测试中的表现(116),更是全场最高分!这说明什么?这意味着「最聪明」的头衔,完全取决于你用哪一把尺去测量。在需要视觉空间能力的测试中,一个模型可能称王;但在考验抽象逻辑或语言推理的测试中,另一个模型可能才是霸主。

2. AI 也会「偏科」?两种测验大不同

同一模型在两项测验中巨大的分数差异,揭示了它们存在明显的「偏科」现象。例如:

  • OpenAI GPT-5 Pro:Offline Test 116 分,Mensa Norway 148 分,足足差了 32 分!
  • Gemini 2.5 Pro:Offline Test 118 分,Mensa Norway 137 分,也相差 19 分。

这强烈暗示,Offline TestMensa Norway 测验的重点截然不同。前者可能更侧重于像图形辨识、空间关系等具象化的推理能力,这也是视觉模型(Vision)表现普遍不错的原因。而后者可能更偏向于传统智力测验中的抽象逻辑、数字规律或语言理解,这让顶尖的语言模型(Verbal)得以大放异彩。

3. 视觉与语言的鸿沟:同一模型的不同面貌

这份数据也让我们看到了 AI 能力的「模态鸿沟」。以 Gemini 2.5 Pro 为例,它的语言模型在两项测试中都取得了顶尖成绩(118/137),但其视觉模型(Vision)的得分则降至(99/96)。这说明,即便底层技术同源,针对不同任务(处理文字 vs. 处理图像)进行优化的模型,其能力表现会产生巨大差异。

4. 隐藏的黑马与被低估的选手

如果只看前三名,你会错过很多精彩的细节。

  • Llama 4 Maverick 的 Offline Test 分数仅为 82,看起来似乎不起眼,但它的 Mensa Norway 分数却达到了 100,超过了许多排名在它前面的模型。
  • DeepSeek R1 同样如此,Mensa Norway 分数(101)也相当体面。

这说明一些开源或二线模型,可能在特定的推理能力上并不逊色,它们只是没有在所有项目上都进行极致优化。对于特定需求的用户来说,这些「偏科」选手可能更具性价比。

结论:没有唯一的冠军,只有更合适的工具

总结来说,这份最新的、更真实的数据告诉我们一个重要的事实:在 AI 的世界里,不存在一个全能的、唯一的冠军。

将 AI 的「智力」简化为单一的分数,是一种过度简化的误解。不同的模型被设计用来解决不同的问题,它们各有专长。GPT-5 Pro (Vision) 或许是你看图解谜的最佳伙伴,而 GPT-5 Pro (语言模型) 则可能是你进行深度学术探讨或逻辑分析的更强帮手。

作为使用者,我们应该做的,不是盲目追捧排名第一的模型,而是要根据自己的具体需求,去了解哪个 AI 在你需要的「考场」上表现最好。这份排行榜最大的价值,正是揭示了这种多元性,帮助我们从「谁最聪明?」的迷思中走出来,转而思考「谁最适合我?」。

分享到:
Featured Partners

© 2026 Communeify. All rights reserved.