AI IQ 大战风云变色！最新数据揭晓：最聪明的不是你想的那个？

AI 界的智力竞赛出现惊人转折！根据最新泄露的真实数据，OpenAI、Google、Anthropic 的顶尖模型在不同智力测验中各有胜负。本文将为您呈现 29 款 AI 的完整 IQ 排行，并深入剖析这份数据背后不为人知的真相。

AI 界的「奥运会」，规则比你想的更复杂

我们都习惯于寻找一个唯一的冠军。在人工智能的竞赛中，我们也想知道：谁才是最聪明的 AI？一个名为 Tracking AI 的网站，通过定期的智力测验，试图回答这个问题。然而，根据最新流出的真实数据，我们发现答案远比一个简单的排名要复杂得多。

这场竞赛不只有一个项目，而是至少有两种不同的「考卷」：一个是 Offline Test，另一个则是 Mensa Norway 测验。不同的 AI 在不同的考卷上，表现可能天差地远。这就像一位运动员，可能是百米短跑冠军，但在马拉松项目上却未必能夺冠。

完整 AI 智商排行榜：29 款模型真实力一次看懂

这份基于最新数据的完整排行榜，同时列出了各模型在两种测验中的分数。为了方便比较，我们主要以 Offline Test 的分数进行排序，但请务必留意它在 Mensa Norway 测验中的惊人反差。

排名 (依 Offline Test)	AI 模型	Offline Test IQ	Mensa Norway IQ
1	OpenAI GPT-5 Pro (Vision)	123	136
2	Gemini 2.5 Pro	118	137
3	Claude-4 Opus	118	117
4	OpenAI GPT-5 Pro	116	148
5	OpenAI o3	116	135
6	OpenAI o3 Pro	109	133
7	Claude-4 Sonnet	107	119
8	Grok-4	103	121
9	OpenAI o3 Pro (Vision)	100	104
10	Gemini 2.5 Pro (Vision)	99	96
11	OpenAI o3 (Vision)	97	94
12	OpenAI GPT-5	93	115
13	OpenAI o4 mini	90	112
14	Gemini 2.5 Flash Thinking	90	87
15	Claude-4 Sonnet (Vision)	88	93
16	OpenAI GPT-5 (Vision)	87	67
17	OpenAI o4 mini high	87	99
18	DeepSeek R1	86	101
19	OpenAI o4 mini (Vision)	84	79
20	Claude-4 Opus (Vision)	82	82
21	Llama 4 Maverick	82	100
22	Llama 4 Maverick (Vision)	82	75
23	DeepSeek V3	79	92
24	Mistral	74	85
25	GPT-4o	69	85
26	Grok-4 (Vision)	68	82
27	Bing Copilot	67	86
28	GPT-4o (Vision)	65	64
29	OpenAI GPT-5 Thinking	64	79

详情请参考网站上最新信息

数据背后的观点：你真的看懂这份榜单了吗？

只看排名是外行，看懂门道才是专家。这份看似简单的表格，其实隐藏着几个非常重要的观点：

1. 冠军宝座的「双重标准」：谁才是真正的第一？

如果只看 Offline Test，OpenAI GPT-5 Pro (Vision) 以 123 分拔得头筹，似乎是当之无愧的视觉推理之王。

但请把目光移到 Mensa Norway 这一栏。OpenAI GPT-5 Pro (语言模型) 的分数竟高达 148，不仅远超它自己在另一项测试中的表现（116），更是全场最高分！这说明什么？这意味着「最聪明」的头衔，完全取决于你用哪一把尺去测量。在需要视觉空间能力的测试中，一个模型可能称王；但在考验抽象逻辑或语言推理的测试中，另一个模型可能才是霸主。

2. AI 也会「偏科」？两种测验大不同

同一模型在两项测验中巨大的分数差异，揭示了它们存在明显的「偏科」现象。例如：

OpenAI GPT-5 Pro：Offline Test 116 分，Mensa Norway 148 分，足足差了 32 分！
Gemini 2.5 Pro：Offline Test 118 分，Mensa Norway 137 分，也相差 19 分。

这强烈暗示，Offline Test 和 Mensa Norway 测验的重点截然不同。前者可能更侧重于像图形辨识、空间关系等具象化的推理能力，这也是视觉模型（Vision）表现普遍不错的原因。而后者可能更偏向于传统智力测验中的抽象逻辑、数字规律或语言理解，这让顶尖的语言模型（Verbal）得以大放异彩。

3. 视觉与语言的鸿沟：同一模型的不同面貌

这份数据也让我们看到了 AI 能力的「模态鸿沟」。以 Gemini 2.5 Pro 为例，它的语言模型在两项测试中都取得了顶尖成绩（118/137），但其视觉模型（Vision）的得分则降至（99/96）。这说明，即便底层技术同源，针对不同任务（处理文字 vs. 处理图像）进行优化的模型，其能力表现会产生巨大差异。

4. 隐藏的黑马与被低估的选手

如果只看前三名，你会错过很多精彩的细节。

Llama 4 Maverick 的 Offline Test 分数仅为 82，看起来似乎不起眼，但它的 Mensa Norway 分数却达到了 100，超过了许多排名在它前面的模型。
DeepSeek R1 同样如此，Mensa Norway 分数（101）也相当体面。

这说明一些开源或二线模型，可能在特定的推理能力上并不逊色，它们只是没有在所有项目上都进行极致优化。对于特定需求的用户来说，这些「偏科」选手可能更具性价比。

结论：没有唯一的冠军，只有更合适的工具

总结来说，这份最新的、更真实的数据告诉我们一个重要的事实：在 AI 的世界里，不存在一个全能的、唯一的冠军。

将 AI 的「智力」简化为单一的分数，是一种过度简化的误解。不同的模型被设计用来解决不同的问题，它们各有专长。GPT-5 Pro (Vision) 或许是你看图解谜的最佳伙伴，而 GPT-5 Pro (语言模型) 则可能是你进行深度学术探讨或逻辑分析的更强帮手。

作为使用者，我们应该做的，不是盲目追捧排名第一的模型，而是要根据自己的具体需求，去了解哪个 AI 在你需要的「考场」上表现最好。这份排行榜最大的价值，正是揭示了这种多元性，帮助我们从「谁最聪明？」的迷思中走出来，转而思考「谁最适合我？」。

分享到:

Featured Partners

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

Recommended for You

2 …

news

2025年10月24日 AI 日报：OpenAI、Google、Anthropic、Microsoft 重大更新一览

掌握 2025 年 10 月 24 日最新的 AI 发展！今天，AI 领域迎来了爆炸性的一天。OpenAI 为 ChatGPT 带来了革命性的“公司知识”功能，让 AI 真正融入企业工作流程。同时，Google 推出了让应用开发更直观的 AI Studio 新模式，并大幅升级了 Google Earth AI。Anthropic 的 Claude 也没闲着，正式向个人用户开放“记忆功能”。最后，微软让经典角色“回形针”以全新 AI 形象 Mico 回归 Copilot。本文将为您深入剖析这些重大更新。 OpenAI 推出“Company Knowledge”，让 ChatGPT 更懂你的业务你是否也曾为了找一份文件，在 Slack、Google Drive 和无数封邮件中焦头烂额？工作中最需要的信息，往往像散落一地的拼图，散布在各个角落。为了解决这个长久以来的痛点，OpenAI 正式为 ChatGPT Business、Enterprise 及 Edu 用户推出了一项名为**“公司知识 (Company Knowledge)”**的强大功能。终结信息孤岛，打造企业专属大脑简单来说，“公司知识”功能就像是给了 ChatGPT 一把通往你公司内部信息库的万能钥匙。首次使用时，你只需将公司常用的应用程序（如 Slack、SharePoint、Google Drive、GitHub 等）与 ChatGPT 连接。之后，当你启用这项功能并提出问题时，ChatGPT就能夠跨平台查找所有相关资料，提供一个整合了完整上下文、专属于你公司业务的精准答案。举个例子，当你需要准备一场客户会议时，可以直接问 ChatGPT：“帮我整理一下上次与客户 A 会议后的重点，以及最近 Slack 频道中关于他们的讨论。”ChatGPT 会自动抓取 Google Docs 的会议记录、Email 中的关键细节，甚至是 Intercom 的客服问题，生成一份完整的简报。

Oct 24, 2025 Read →

2 …

news

2025-10-23 AI 日报：Sora 公布未来蓝图、OpenRouter 用 Exacto 提升模型精准度

AI 的世界每天都在飞速前进！今天，我们将看到 OpenAI 为 Sora 擘划的宏大蓝图，了解 OpenRouter 如何解决大型语言模型 (LLM) 供应商之间表现参差不齐的头痛问题。同时，Claude 的桌面应用程序也正式上线，Grok Imagine 带来了惊人的影片升级功能，而 Gemini CLI 也迎来了重要的更新。 Grok Imagine 推出影片超解析度功能，一键升级 HD 你是否曾觉得 AI 生成的影片解析度不够高，看起来总是有点模糊？现在，Grok Imagine 带来了一个超棒的解决方案。他们刚刚推出了全新的「影片超解析度」功能。使用者现在只需要按一下，就能立刻将 Grok Imagine 生成的影片升级到高清 (HD) 画质。最令人惊讶的是它的速度——整个过程竟然不到 10 秒钟。这对于追求影片品质和效率的创作者来说，无疑是一大福音。参考来源。 LLM 供应商表现参差不齐？OpenRouter 用 Exacto 终结你的选择困难这件事，相信所有开发者都心有戚戚焉。理论上，当不同的供应商运行同一个大型语言模型时，它们的表现应该是一样的。但现实是，由于各种复杂的技术细节，结果往往大相径庭，尤其是在「工具呼叫 (tool calling)」的精准度上。工具呼叫，简单来说，就是当 AI 需要使用一个外部工具或函式来完成任务时的行为，例如查询天气、计算股价等。如果这个环节出错，整个应用程式的流程可能就中断了。 OpenRouter 的独特视角与挑战 OpenRouter 每个月处理来自全球数十亿次的请求，这让他们处在一个独一无二的位置，能够清楚地观察到不同供应商之间的细微差异。他们发现，即使是同一个模型，在工具呼叫的成功率和倾向性上，也存在着显著的差距。为了确保使用者能获得稳定、高品质的体验，他们决定采取行动。什么是 Exacto？一个专为精准度而生的解决方案为了解决这个问题，OpenRouter 推出了名为「Exacto」的全新端点 (endpoints)。这不是一个新模型，而是一个智慧路由系统。当你使用 Exacto 端点时，你的请求会被自动导向到一个经过严格筛选的供应商子群组。这些供应商在以下三个方面都表现顶尖：工具呼叫的精准度最高工具呼叫的倾向性在正常范围内 (不会过度或过少地呼叫工具) 最少被使用者忽略或封锁这个筛选机制结合了 OpenRouter 的内部遥测数据、使用者偏好数据以及像 Groq OpenBench 这类的公开基准测试，确保了路由的结果是最佳选择。根据 OpenRouter 的测试，以 Kimi K2 模型为例，使用 Exacto 端点后，在 LiveMCPBench 基准测试中的工具呼叫成功率提升了约 30%，在 Tau2Bench 测试中也提升了约 9%。这对所有依赖 AI 代理 (agentic workflows) 进行复杂工作的开发者来说，是一个巨大的进步。

Oct 23, 2025 Read →

2 …

news

2025-10-22 AI日报：OpenAI 浏览器 Atlas 正式上线，Google、阿里云同步秀肌肉

探索今日 AI 界三大重磅消息：OpenAI 推出内建 ChatGPT 的革命性浏览器 Atlas，挑战 Chrome 霸权。Google AI Studio 升级，让开发 AI 应用像点餐一样简单。阿里云 Qwen 则让研究报告能一键生成网页和 Podcast，彻底改变内容呈现方式。今天绝对是 AI 发展史上值得记上一笔的日子。科技巨头们仿佛约好了一样，纷纷抛出震撼弹，预告着我们与科技互动的方式即将迎来翻天覆地的变化。 OpenAI 正式吹响了「浏览器大战」的号角，推出了传闻已久的 ChatGPT Atlas 浏览器；而 Google 也不甘示弱，全面升级其 AI Studio，目标是让每个人都能轻松打造 AI 应用；与此同时，阿里云的 Qwen 模型则在内容创作领域玩出了新花样。准备好了吗？让我们来看看今天科技圈发生了哪些大事。 OpenAI 正式宣战！ChatGPT Atlas 浏览器登场，上网方式将彻底改变？你想象过吗？有一天，浏览器不再只是一个被动的工具，而是一个能理解你、与你协作的智慧伙伴。今天，OpenAI 将这个想象变成了现实，正式推出了首款以 AI 为核心的网页浏览器——ChatGPT Atlas。这不只是「内建 AI」，而是「以 AI 为核心」过去我们看到的许多「AI 浏览器」，充其量只是在传统浏览器里塞进一个聊天机器人侧边栏。但 Atlas 的理念完全不同，它不是在浏览器里「加入」ChatGPT，而是围绕 ChatGPT「打造」了一个全新的浏览器。这意味着，你与网络的互动方式，将从过去单向的「搜寻、点击、阅读」，转变为双向的「对话、协作、完成任务」。 Atlas 三大核心武器：AI 伙伴、超强记忆与自动代理根据 OpenAI 的发布内容，Atlas 的强大之处主要体现在三个方面： AI 伙伴与分割画面 (AI Companion & Split-Screen): 当你打开任何网页，Atlas 会以分割画面的形式呈现，一边是网页内容，另一边就是你的 AI 伙伴 ChatGPT。它能即时「看见」你正在浏览的内容。你可以随时问它：「帮我总结这篇文章的重点」、「把这段技术文件用我能懂的方式解释一下」。甚至，透过「浮动游标 (Cursor Chat)」功能，你只需圈选网页上的任何文字，就能直接下指令，让 AI 进行润饰、翻译或改写。

Oct 22, 2025 Read →