tool

不仅是夺金:Google DeepMind 推出 IMO-Bench,为 AI 数学推理能力树立新标杆

November 5, 2025
Updated Nov 5
2 min read

Google DeepMind 在其 Gemini 模型于国际数学奥林匹亚(IMO)竞赛达到金牌标准后,正式发布 IMO-Bench。这不只是一个评测工具,更是一套推动 AI 从「解决问题」迈向「深度推理」的全新基准,旨在引领 AI 领域进入更强健、更富创造力的数学推理新时代。


AI 数学竞赛夺金之后,我们该关注什么?

2025 年 7 月,人工智能领域迎来了一个历史性的时刻:Google DeepMind 的先进 Gemini 模型,搭载了 Deep Think 技术,在国际数学奥林匹亚(IMO)竞赛中达到了金牌标准。这无疑是 AI 发展的重大里程碑。

然而,这场胜利的意义远不止于在 IMO 等级的难题上取得优异成绩。真正的目标,是打造一个能够进行深度、稳健数学推理的系统。毕竟,只给出正确答案是不够的,理解并证明「为何如此」才是通往真正智慧的关键。

正是基于这样的理念,在 EMNLP 2025 大会上,Google DeepMind 隆重推出了 IMO-Bench——一套先进的推理基准测试。它不仅在 Gemini 的夺金之路上扮演了核心角色,更旨在为整个 AI 社群推开数学推理能力的新大门。

所以,IMO-Bench 到底是什么?

简单来说,IMO-Bench 是一套专门用来评估 AI 模型数学能力的「考题」。但这可不是普通的考试,它的所有题目都经过了由 10 位 IMO 金牌和 5 位银牌得主组成的专家小组严格审核。

IMO 的题目之所以困难,是因为它们不仅需要严谨的多步骤推理,更需要跳脱公式框架的创造力。这也正是 IMO-Bench 的核心所在。它不只关心 AI 能否算出答案,更关心 AI 能否「思考」。

IMO-Bench 主要由三个部分组成,各有侧重:

  1. IMO-AnswerBench:大规模测试,包含 400 道题目,专注于评估模型「给出正确答案」的能力。
  2. IMO-ProofBench:进阶评估,包含 60 道题目,旨在检验模型「撰写严谨证明过程」的能力。
  3. IMO-GradingBench:包含 1000 个案例,用于推动「自动评估长篇答案」的技术进展。

这套基准的发布,就是希望引导社群的焦点从单纯的「最终答案」转移到更为关键的「证明过程」本身,从而实现对 AI 推理能力的更严格评估。

超越标准答案:IMO-ProofBench 的挑战

过去,我们评估 AI 的数学能力,往往只看答案的准确率。但这远远不够。一个真正懂数学的系统,必须能够建构出严谨、有效的数学论证。

为此,IMO-Bench 推出了 IMO-ProofBench,它将评估提升到了一个新的层次。这个基准包含 60 个需要证明的问题,并分为两个子集:

  • 基础集 (Basic):涵盖从 IMO 赛前到中等难度的题目,用于评估模型在发展初期的推理能力。
  • 进阶集 (Advanced):包含全新且极具挑战性的题目,模拟真实 IMO 考试的最高难度。

测试结果显示,不同模型间的表现差异巨大。在基础集上,Gemini Deep Think (IMO Gold) 取得了 89.0% 的高分,但多数模型的得分仍低于 60%。

而在更具挑战性的进阶集上,差距更加明显。所有非 Gemini 模型的得分都低于 25%,而 Gemini Deep Think 则达到了目前最先进的 65.7%。这个成绩虽然是巨大的飞跃,但也说明,即便是最强大的模型,在通往完美数学推理的道路上,依然有很长的路要走。

AI 能批改 AI 的考卷吗?ProofAutoGrader 的诞生

尽管人类专家的评估是检验数学证明的黄金标准,但其高昂的时间和人力成本限制了大规模研究的可行性。

为了解决这个难题,DeepMind 团队打造了 ProofAutoGrader,一个基于 Gemini 2.5 Pro 的自动评分工具。它的工作方式是:提供问题描述、候选解答、参考答案和具体的评分指南,让 AI 自动为证明过程打分。

结果令人振奋。在对 14 个公开模型进行测试时,ProofAutoGrader 的评分结果与人类专家的评分结果高度相关,其皮尔森相关系数在基础集和进阶集上分别达到了惊人的 0.960.93。这意味着,AI 自动评分不仅可行,而且相当可靠,为未来大规模、可扩展的 AI 推理研究铺平了道路。

从排行榜看 AI 推理的真实差距

ModelAdvanced ProofBench BreakdownQuery dateNovelIMO 2024†USAMO 2025
Gemini Deep Think (IMO Gold)65.7%61.1%2025-08-0276.2%69.0%
Gemini Deep Think (IMO lite)37.6%31.7%2025-08-2040.5%52.4%
Gemini 2.5 Pro with (Huang & Yang, 2025)24.8%17.5%2025-07-1419.1%52.4%
Grok 4 (heavy)23.3%11.1%2025-07-127.1%76.2%
o320.5%15.1%2025-08-044.8%52.4%
GPT-520%15.9%2025-09-1833.3%19.0%
Grok 418.6%17.5%2025-08-2016.7%23.8%
Gemini 2.5 Pro17.6%15.9%2025-08-047.1%33.3%
o4-mini (high reasoning)11.4%8.7%2025-08-047.1%23.8%
Kimi-K2-Instruct7.1%4%2025-08-212.4%21.4%
Qwen3-235B5.2%7.1%2025-08-210.0%4.8%
Claude Sonnet 44.8%6.4%2025-09-172.4%2.4%
DeepSeek V34.3%6.3%2025-09-162.4%0.0%
DeepSeek R13.8%6.4%2025-09-160.0%0.0%
Claude Opus 42.9%0.0%2025-08-042.4%11.9%

IMO-Bench 的排行榜揭示了一个有趣的现象:某些模型可能存在「过拟合」的问题。

例如,Grok 4 (heavy) 模型在 USAMO 2025 的题目上得分高达 76.2%,但在全新的、未见过的题目上却只有 11.1%。这表明它的强大表现可能过度依赖于特定的数据集。

相比之下,Gemini Deep Think (IMO Gold) 在 USAMO 题目和新题目上分别获得了 69.0% 和 61.1% 的分数,显示出其更为通用的推理能力,而没有过度拟合特定数据。

这也凸显了 IMO-ProofBench 的价值:它不仅能评估模型的最高水平,还能揭示其能力的通用性和稳健性,帮助研究人员更全面地理解模型的数学能力。

未来展望:共同推动 AI 的数学思维

Google DeepMind 选择将 IMO-Bench 连同丰富的评估数据一起开放给整个社群,是希望藉此激发更多的创新与合作。

透过提供一个更严谨、更全面的评估标准,研究人员可以更准确地衡量模型的进步,并专注于开发具备真正创造力和深刻理解力的 AI 系统。这不只关乎数学,更关乎所有需要复杂推理能力的领域。

想了解更多关于这些基准和结果的详细资讯吗?可以查看他们的 官方论文数据集排行榜。AI 数学推理的下一篇章,正等着我们共同书写。

分享到:
Featured Partners

© 2026 Communeify. All rights reserved.