Google DeepMind 在其 Gemini 模型于国际数学奥林匹亚(IMO)竞赛达到金牌标准后,正式发布 IMO-Bench。这不只是一个评测工具,更是一套推动 AI 从「解决问题」迈向「深度推理」的全新基准,旨在引领 AI 领域进入更强健、更富创造力的数学推理新时代。
AI 数学竞赛夺金之后,我们该关注什么?
2025 年 7 月,人工智能领域迎来了一个历史性的时刻:Google DeepMind 的先进 Gemini 模型,搭载了 Deep Think 技术,在国际数学奥林匹亚(IMO)竞赛中达到了金牌标准。这无疑是 AI 发展的重大里程碑。
然而,这场胜利的意义远不止于在 IMO 等级的难题上取得优异成绩。真正的目标,是打造一个能够进行深度、稳健数学推理的系统。毕竟,只给出正确答案是不够的,理解并证明「为何如此」才是通往真正智慧的关键。
正是基于这样的理念,在 EMNLP 2025 大会上,Google DeepMind 隆重推出了 IMO-Bench——一套先进的推理基准测试。它不仅在 Gemini 的夺金之路上扮演了核心角色,更旨在为整个 AI 社群推开数学推理能力的新大门。
所以,IMO-Bench 到底是什么?
简单来说,IMO-Bench 是一套专门用来评估 AI 模型数学能力的「考题」。但这可不是普通的考试,它的所有题目都经过了由 10 位 IMO 金牌和 5 位银牌得主组成的专家小组严格审核。
IMO 的题目之所以困难,是因为它们不仅需要严谨的多步骤推理,更需要跳脱公式框架的创造力。这也正是 IMO-Bench 的核心所在。它不只关心 AI 能否算出答案,更关心 AI 能否「思考」。
IMO-Bench 主要由三个部分组成,各有侧重:
- IMO-AnswerBench:大规模测试,包含 400 道题目,专注于评估模型「给出正确答案」的能力。
- IMO-ProofBench:进阶评估,包含 60 道题目,旨在检验模型「撰写严谨证明过程」的能力。
- IMO-GradingBench:包含 1000 个案例,用于推动「自动评估长篇答案」的技术进展。
这套基准的发布,就是希望引导社群的焦点从单纯的「最终答案」转移到更为关键的「证明过程」本身,从而实现对 AI 推理能力的更严格评估。
超越标准答案:IMO-ProofBench 的挑战
过去,我们评估 AI 的数学能力,往往只看答案的准确率。但这远远不够。一个真正懂数学的系统,必须能够建构出严谨、有效的数学论证。
为此,IMO-Bench 推出了 IMO-ProofBench,它将评估提升到了一个新的层次。这个基准包含 60 个需要证明的问题,并分为两个子集:
- 基础集 (Basic):涵盖从 IMO 赛前到中等难度的题目,用于评估模型在发展初期的推理能力。
- 进阶集 (Advanced):包含全新且极具挑战性的题目,模拟真实 IMO 考试的最高难度。
测试结果显示,不同模型间的表现差异巨大。在基础集上,Gemini Deep Think (IMO Gold) 取得了 89.0% 的高分,但多数模型的得分仍低于 60%。
而在更具挑战性的进阶集上,差距更加明显。所有非 Gemini 模型的得分都低于 25%,而 Gemini Deep Think 则达到了目前最先进的 65.7%。这个成绩虽然是巨大的飞跃,但也说明,即便是最强大的模型,在通往完美数学推理的道路上,依然有很长的路要走。
AI 能批改 AI 的考卷吗?ProofAutoGrader 的诞生
尽管人类专家的评估是检验数学证明的黄金标准,但其高昂的时间和人力成本限制了大规模研究的可行性。
为了解决这个难题,DeepMind 团队打造了 ProofAutoGrader,一个基于 Gemini 2.5 Pro 的自动评分工具。它的工作方式是:提供问题描述、候选解答、参考答案和具体的评分指南,让 AI 自动为证明过程打分。
结果令人振奋。在对 14 个公开模型进行测试时,ProofAutoGrader 的评分结果与人类专家的评分结果高度相关,其皮尔森相关系数在基础集和进阶集上分别达到了惊人的 0.96 和 0.93。这意味着,AI 自动评分不仅可行,而且相当可靠,为未来大规模、可扩展的 AI 推理研究铺平了道路。
从排行榜看 AI 推理的真实差距
| Model | Advanced Proof | Bench Breakdown | Query date | Novel | IMO 2024† | USAMO 2025 |
|---|---|---|---|---|---|---|
| Gemini Deep Think (IMO Gold) | 65.7% | 61.1% | 2025-08-02 | 76.2% | 69.0% | |
| Gemini Deep Think (IMO lite) | 37.6% | 31.7% | 2025-08-20 | 40.5% | 52.4% | |
| Gemini 2.5 Pro with (Huang & Yang, 2025) | 24.8% | 17.5% | 2025-07-14 | 19.1% | 52.4% | |
| Grok 4 (heavy) | 23.3% | 11.1% | 2025-07-12 | 7.1% | 76.2% | |
| o3 | 20.5% | 15.1% | 2025-08-04 | 4.8% | 52.4% | |
| GPT-5 | 20% | 15.9% | 2025-09-18 | 33.3% | 19.0% | |
| Grok 4 | 18.6% | 17.5% | 2025-08-20 | 16.7% | 23.8% | |
| Gemini 2.5 Pro | 17.6% | 15.9% | 2025-08-04 | 7.1% | 33.3% | |
| o4-mini (high reasoning) | 11.4% | 8.7% | 2025-08-04 | 7.1% | 23.8% | |
| Kimi-K2-Instruct | 7.1% | 4% | 2025-08-21 | 2.4% | 21.4% | |
| Qwen3-235B | 5.2% | 7.1% | 2025-08-21 | 0.0% | 4.8% | |
| Claude Sonnet 4 | 4.8% | 6.4% | 2025-09-17 | 2.4% | 2.4% | |
| DeepSeek V3 | 4.3% | 6.3% | 2025-09-16 | 2.4% | 0.0% | |
| DeepSeek R1 | 3.8% | 6.4% | 2025-09-16 | 0.0% | 0.0% | |
| Claude Opus 4 | 2.9% | 0.0% | 2025-08-04 | 2.4% | 11.9% |
IMO-Bench 的排行榜揭示了一个有趣的现象:某些模型可能存在「过拟合」的问题。
例如,Grok 4 (heavy) 模型在 USAMO 2025 的题目上得分高达 76.2%,但在全新的、未见过的题目上却只有 11.1%。这表明它的强大表现可能过度依赖于特定的数据集。
相比之下,Gemini Deep Think (IMO Gold) 在 USAMO 题目和新题目上分别获得了 69.0% 和 61.1% 的分数,显示出其更为通用的推理能力,而没有过度拟合特定数据。
这也凸显了 IMO-ProofBench 的价值:它不仅能评估模型的最高水平,还能揭示其能力的通用性和稳健性,帮助研究人员更全面地理解模型的数学能力。
未来展望:共同推动 AI 的数学思维
Google DeepMind 选择将 IMO-Bench 连同丰富的评估数据一起开放给整个社群,是希望藉此激发更多的创新与合作。
透过提供一个更严谨、更全面的评估标准,研究人员可以更准确地衡量模型的进步,并专注于开发具备真正创造力和深刻理解力的 AI 系统。这不只关乎数学,更关乎所有需要复杂推理能力的领域。
想了解更多关于这些基准和结果的详细资讯吗?可以查看他们的 官方论文、数据集 和 排行榜。AI 数学推理的下一篇章,正等着我们共同书写。


