不仅是夺金：Google DeepMind 推出 IMO-Bench，为 AI 数学推理能力树立新标杆

Google DeepMind 在其 Gemini 模型于国际数学奥林匹亚（IMO）竞赛达到金牌标准后，正式发布 IMO-Bench。这不只是一个评测工具，更是一套推动 AI 从「解决问题」迈向「深度推理」的全新基准，旨在引领 AI 领域进入更强健、更富创造力的数学推理新时代。

AI 数学竞赛夺金之后，我们该关注什么？

2025 年 7 月，人工智能领域迎来了一个历史性的时刻：Google DeepMind 的先进 Gemini 模型，搭载了 Deep Think 技术，在国际数学奥林匹亚（IMO）竞赛中达到了金牌标准。这无疑是 AI 发展的重大里程碑。

然而，这场胜利的意义远不止于在 IMO 等级的难题上取得优异成绩。真正的目标，是打造一个能够进行深度、稳健数学推理的系统。毕竟，只给出正确答案是不够的，理解并证明「为何如此」才是通往真正智慧的关键。

正是基于这样的理念，在 EMNLP 2025 大会上，Google DeepMind 隆重推出了 IMO-Bench——一套先进的推理基准测试。它不仅在 Gemini 的夺金之路上扮演了核心角色，更旨在为整个 AI 社群推开数学推理能力的新大门。

所以，IMO-Bench 到底是什么？

简单来说，IMO-Bench 是一套专门用来评估 AI 模型数学能力的「考题」。但这可不是普通的考试，它的所有题目都经过了由 10 位 IMO 金牌和 5 位银牌得主组成的专家小组严格审核。

IMO 的题目之所以困难，是因为它们不仅需要严谨的多步骤推理，更需要跳脱公式框架的创造力。这也正是 IMO-Bench 的核心所在。它不只关心 AI 能否算出答案，更关心 AI 能否「思考」。

IMO-Bench 主要由三个部分组成，各有侧重：

IMO-AnswerBench：大规模测试，包含 400 道题目，专注于评估模型「给出正确答案」的能力。
IMO-ProofBench：进阶评估，包含 60 道题目，旨在检验模型「撰写严谨证明过程」的能力。
IMO-GradingBench：包含 1000 个案例，用于推动「自动评估长篇答案」的技术进展。

这套基准的发布，就是希望引导社群的焦点从单纯的「最终答案」转移到更为关键的「证明过程」本身，从而实现对 AI 推理能力的更严格评估。

超越标准答案：IMO-ProofBench 的挑战

过去，我们评估 AI 的数学能力，往往只看答案的准确率。但这远远不够。一个真正懂数学的系统，必须能够建构出严谨、有效的数学论证。

为此，IMO-Bench 推出了 IMO-ProofBench，它将评估提升到了一个新的层次。这个基准包含 60 个需要证明的问题，并分为两个子集：

基础集 (Basic)：涵盖从 IMO 赛前到中等难度的题目，用于评估模型在发展初期的推理能力。
进阶集 (Advanced)：包含全新且极具挑战性的题目，模拟真实 IMO 考试的最高难度。

测试结果显示，不同模型间的表现差异巨大。在基础集上，Gemini Deep Think (IMO Gold) 取得了 89.0% 的高分，但多数模型的得分仍低于 60%。

而在更具挑战性的进阶集上，差距更加明显。所有非 Gemini 模型的得分都低于 25%，而 Gemini Deep Think 则达到了目前最先进的 65.7%。这个成绩虽然是巨大的飞跃，但也说明，即便是最强大的模型，在通往完美数学推理的道路上，依然有很长的路要走。

AI 能批改 AI 的考卷吗？ProofAutoGrader 的诞生

尽管人类专家的评估是检验数学证明的黄金标准，但其高昂的时间和人力成本限制了大规模研究的可行性。

为了解决这个难题，DeepMind 团队打造了 ProofAutoGrader，一个基于 Gemini 2.5 Pro 的自动评分工具。它的工作方式是：提供问题描述、候选解答、参考答案和具体的评分指南，让 AI 自动为证明过程打分。

结果令人振奋。在对 14 个公开模型进行测试时，ProofAutoGrader 的评分结果与人类专家的评分结果高度相关，其皮尔森相关系数在基础集和进阶集上分别达到了惊人的 0.96 和 0.93。这意味着，AI 自动评分不仅可行，而且相当可靠，为未来大规模、可扩展的 AI 推理研究铺平了道路。

从排行榜看 AI 推理的真实差距

Model	Advanced Proof	Bench Breakdown	Query date	Novel	IMO 2024†
Gemini Deep Think (IMO Gold)	65.7%	61.1%	2025-08-02	76.2%	69.0%
Gemini Deep Think (IMO lite)	37.6%	31.7%	2025-08-20	40.5%	52.4%
Gemini 2.5 Pro with (Huang & Yang, 2025)	24.8%	17.5%	2025-07-14	19.1%	52.4%
Grok 4 (heavy)	23.3%	11.1%	2025-07-12	7.1%	76.2%
o3	20.5%	15.1%	2025-08-04	4.8%	52.4%
GPT-5	20%	15.9%	2025-09-18	33.3%	19.0%
Grok 4	18.6%	17.5%	2025-08-20	16.7%	23.8%
Gemini 2.5 Pro	17.6%	15.9%	2025-08-04	7.1%	33.3%
o4-mini (high reasoning)	11.4%	8.7%	2025-08-04	7.1%	23.8%
Kimi-K2-Instruct	7.1%	4%	2025-08-21	2.4%	21.4%
Qwen3-235B	5.2%	7.1%	2025-08-21	0.0%	4.8%
Claude Sonnet 4	4.8%	6.4%	2025-09-17	2.4%	2.4%
DeepSeek V3	4.3%	6.3%	2025-09-16	2.4%	0.0%
DeepSeek R1	3.8%	6.4%	2025-09-16	0.0%	0.0%
Claude Opus 4	2.9%	0.0%	2025-08-04	2.4%	11.9%

IMO-Bench 的排行榜揭示了一个有趣的现象：某些模型可能存在「过拟合」的问题。

例如，Grok 4 (heavy) 模型在 USAMO 2025 的题目上得分高达 76.2%，但在全新的、未见过的题目上却只有 11.1%。这表明它的强大表现可能过度依赖于特定的数据集。

相比之下，Gemini Deep Think (IMO Gold) 在 USAMO 题目和新题目上分别获得了 69.0% 和 61.1% 的分数，显示出其更为通用的推理能力，而没有过度拟合特定数据。

这也凸显了 IMO-ProofBench 的价值：它不仅能评估模型的最高水平，还能揭示其能力的通用性和稳健性，帮助研究人员更全面地理解模型的数学能力。

未来展望：共同推动 AI 的数学思维

Google DeepMind 选择将 IMO-Bench 连同丰富的评估数据一起开放给整个社群，是希望藉此激发更多的创新与合作。

透过提供一个更严谨、更全面的评估标准，研究人员可以更准确地衡量模型的进步，并专注于开发具备真正创造力和深刻理解力的 AI 系统。这不只关乎数学，更关乎所有需要复杂推理能力的领域。

想了解更多关于这些基准和结果的详细资讯吗？可以查看他们的官方论文、数据集和排行榜。AI 数学推理的下一篇章，正等着我们共同书写。

分享到:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

Recommended for You

L …

tool

LLM 智能体期中考：VitaBench 揭示残酷真相，顶尖模型成功率仅 30%？

当我们以为大型语言模型（LLM）驱动的 AI 智能体（Agent）无所不能时，美团 LongCat 团队发布的最新评测基准 VitaBench 却给了整个产业一记当头棒喝。这项堪称「最难模拟考」的测试显示，即使是顶尖的 AI 模型，在处理复杂的真实世界任务时，成功率也低得惊人。这究竟是怎么回事？当 AI 智能体走出实验室，现实给了它一巴掌近年来，大型语言模型（LLM）驱动的 AI 智能体（Agent）无疑是科技圈最炙手可热的话题。我们想象着，未来只要动动嘴，AI 助理就能帮我们处理预订餐厅、规划旅游、安排外送等一切大小事。听起来很美好，对吧？但现实总是有点骨感。目前的 AI 智能体，在单纯、封闭的环境下或许表现不错，就像是在驾训班的练习场开车，一切顺利。然而，一旦将它们放到真实世界的十字路口——充满了突发状况、模糊指令和多重任务的复杂环境——它们还能应付自如吗？答案可能让你有些失望。过去的许多评测基准，都过于简化问题，无法真正反映现实生活的复杂性。这就像用一元一次方程式去评估一位数学家的能力，完全没测出真本事。 VitaBench：为 AI 智能体打造的「终极试炼场」为了解决这个问题，美团的 LongCat 团队推出了 VitaBench——一个专为评测 LLM 智能体在真实世界应用中表现而设计的全新、高难度基准。你可以把 VitaBench 想象成一个极度拟真的「生活模拟器」。它不再是纸上谈兵，而是直接将 AI 丢进我们最熟悉的三大生活场景：美食外送到店消费在线旅游服务这个模拟环境有多复杂？它整合了高达 66 种不同的工具（Tools），从查询店家信息、订位、下单到支付，几乎涵盖了所有可能的操作。不只是单一任务，而是「跨场景」的连续挑战 VitaBench 的核心挑战在于它的任务设计。它不仅有 300 个单一场景的任务，更设计了 100 个极具挑战性的「跨场景任务」。这是什么概念？举个例子，一个真实的用户需求可能是：「帮我预订一家能看到河景的饭店，并在入住当晚，在饭店附近找一家评价不错、不辣的餐厅，预算 200 美元。」这个任务要求 AI 智能体：理解复杂意图：不只要订饭店，还要订餐厅，并且两者有关联。跨时空推理：需要处理入住日期、晚餐时间、饭店与餐厅的地理位置关系。灵活使用工具：必须先用「饭店预订工具」，再根据结果使用「餐厅搜寻工具」。主动澄清：如果用户指令模糊，AI 需要主动追问，例如「您希望的餐厅是哪种菜系？」追踪动态意图：在多轮对话中，用户可能会改变主意，AI 需要能跟上节奏。老实说，这对人类来说都有点复杂，更何况是 AI？残酷的成绩单：顶尖 AI 也纷纷「阵亡」那么，在这场终极试炼中，当今最强大的 AI 模型们表现如何呢？

Oct 21, 2025 Read →

A …

tool

AI 模型最新排名出炉：为何最强大的模型不一定每次都赢？

探索最新的 AI 模型任务完成度评测报告 TaskBench。令人惊讶的是，Gemini 2.5 Flash 等模型在特定任务上的表现超越了许多知名的大型模型。本文将深入解析评测结果，并探讨为何“更大”不等于“更好”。 AI 世界的风向变了？新评测揭示惊人结果在人工智能的领域里，我们总是在追逐下一个更强大、更聪明的模型。从 GPT 系列到 Claude，再到 Gemini，各大巨头的军备竞赛似乎永无止境。但如果比较的标准不只是学术测验，而是真实世界中的任务完成能力，结果会是如何？最近，一份名为 TaskBench 的综合评测报告引起了广泛关注。这份报告不玩虚的，它直接测试各大语言模型在处理实际工作时的表现。结果呢？可以说是有点出乎意料。Google 的 Gemini 2.5 Flash 最新版本在整体任务完成度上名列前茅，在某些方面甚至超越了那些听起来更“重量级”的对手。这份报告不仅仅是一张排名表，它更像一面镜子，反映出 AI 在实用性层面的真实样貌。所以，TaskBench 到底是什么？在我们深入探讨排名之前，得先聊聊 TaskBench 是什么，以及它为何如此重要。简单来说，TaskBench 是一个全面的评估套件，专门用来测试语言模型处理真实世界 AI 任务的能力。它和那些偏重学术理论的基准测试不太一样，TaskBench 更关心的是“这东西到底能不能用”。它的评估方式很实际：每一个测试样本都模拟一次 API 请求，包含结构化的输入和输出，完全比照开发者在实际应用中会遇到的情况。这代表 TaskBench 的分数，直接反映了一个模型在接到具体指令时，能否漂亮地完成任务。最新 AI 模型任务完成度排行榜好了，话不多说，直接来看数据。这份榜单根据模型在三大核心能力上的表现进行排名：情境理解 (Context)、SQL 生成和代理能力 (Agents)。分数代表模型成功完成任务的百分比。排名模型情境理解 (Context) SQL 生成 (SQL) 代理能力 (Agents) #1 grok-4-fast-reasoning 95.0% 94.2% 93.0% #2 gemini-flash-latest 93.3% 95.8% 87.0% #3 grok-4 88.3% 95.8% 91.0% #4 claude-sonnet-4 96.7% 90.0% 89.0% #5 o3 93.3% 93.3% 91.0% #6 claude-opus-4.1 91.7% 95.0% 87.0% #7 claude-sonnet-4.5 98.3% 95.0% 85.0% #8 glm-4.5 90.0% 95.0% 83.0% #9 gpt-5-mini 96.7% 95.0% 83.0% #10 claude-opus-4 93.3% 94.2% 83.0% #11 gpt-5 88.3% 95.0% 87.0% #12 o1 91.7% 96.7% 75.0% #13 claude-3.5-sonnet 90.0% 91.7% 85.0% #14 grok-3 86.7% 91.7% 81.0% #15 claude-3.7-sonnet 86.7% 94.2% 83.0% #16 gemini-2.5-flash 93.3% 93.3% 77.0% #17 o4-mini 88.3% 94.2% 87.0% #18 gpt-oss-120b 88.3% 94.2% 85.0% #19 gemini-2.5-pro 93.3% 91.7% 75.0% #20 gpt-4.1 83.3% 96.7% 83.0% 想看完整的 48 个模型排名和详细数据吗？可以前往 Opper 的官方页面查看。

Oct 9, 2025 Read →

A …

tool

AI 连时钟都看不懂？ClockBench 最新测试揭示顶尖模型的惊人弱点

我们总以为 AI 无所不能，但一个简单的类比时钟却让 Google Gemini 和 OpenAI GPT-5 等顶尖模型纷纷败下阵来。最新的 ClockBench 基准测试显示，人类的准确率高达 89.1%，而最强的 AI 却只有 13.3%。这项发现揭示了 AI 在视觉推理能力上的巨大鸿沟，以及未来发展的关键挑战。我们经常惊叹于人工智能的飞速进步。它们能写诗、能编写代码、能生成以假乱真的图像，似乎正朝着超越人类智慧的道路一路狂奔。但如果现在问你一个问题：当今最顶尖的 AI，看得懂传统的指针时钟吗？答案可能会让你大吃一惊。最近，一个名为 ClockBench 的全新 AI 基准测试平台，就给了这些超级大脑们一个“下马威”。结果显示，即使是像 Google Gemini 2.5 Pro 和传闻中的 GPT-5 这样的顶级模型，在“读懂时钟”这个看似简单的任务上，表现也只能用“惨不忍睹”来形容。这不只是看时间，而是对 AI 推理能力的终极拷问你可能会想，不过就是个时钟，有什么难的？这正是 ClockBench 设计的巧妙之处。读取类比时钟不仅仅是辨识数字而已，它需要一种更深层次的能力——视觉推理。AI 必须理解时针、分针和秒针之间的空间关系，辨识刻度，并将这些视觉信息综合起来，转换成一个精确的时间概念。这项任务的难度，据研究人员表示，足以媲美 DeepMind 创办人 François Chollet 所提出的 ARC-AGI-2 挑战，甚至可能比知名的“人类最终大考（Humanity’s Last Exam）”还要困难。它直接戳中了当前 AI 技术的核心弱点。不只是答错，而是错得离谱 ClockBench 的测试结果，用“惊人”来形容绝不为过。数据显示：人类的平均准确率高达 89.1%。(这边备注一下，他们选择的时钟测试样本有一个只有时针跟分针，没有刻度) 表现最好的 AI 模型 Gemini 2.5 Pro，准确率却只有 13.3%。更让人意外的不是“答错”，而是“错得多离谱”。研究人员发现，人类在读错时间时，中位数误差通常只有 3 分钟。这很合理，可能是匆忙间看错了一点点。然而，表现最好的 AI 模型，其中位数误差竟然长达 1 小时！至于那些表现较差的模型，误差更是高达 3 小时左右。在一个 12 小时制的时钟上，3 小时的误差几乎跟随机乱猜没什么两样了。

Sep 10, 2025 Read →