Google DeepMind 在其 Gemini 模型於國際數學奧林匹亞(IMO)競賽達到金牌標準後,正式發布 IMO-Bench。這不只是一個評測工具,更是一套推動 AI 從「解決問題」邁向「深度推理」的全新基準,旨在引領 AI 領域進入更強健、更富創造力的數學推理新時代。
AI 數學競賽奪金之後,我們該關注什麼?
2025 年 7 月,人工智慧領域迎來了一個歷史性的時刻:Google DeepMind 的先進 Gemini 模型,搭載了 Deep Think 技術,在國際數學奧林匹亞(IMO)競賽中達到了金牌標準。這無疑是 AI 發展的重大里程碑。
然而,這場勝利的意義遠不止於在 IMO 等級的難題上取得優異成績。真正的目標,是打造一個能夠進行深度、穩健數學推理的系統。畢竟,只給出正確答案是不夠的,理解並證明「為何如此」才是通往真正智慧的關鍵。
正是基於這樣的理念,在 EMNLP 2025 大會上,Google DeepMind 隆重推出了 IMO-Bench——一套先進的推理基準測試。它不僅在 Gemini 的奪金之路上扮演了核心角色,更旨在為整個 AI 社群推開數學推理能力的新大門。
所以,IMO-Bench 到底是什麼?
簡單來說,IMO-Bench 是一套專門用來評估 AI 模型數學能力的「考題」。但這可不是普通的考試,它的所有題目都經過了由 10 位 IMO 金牌和 5 位銀牌得主組成的專家小組嚴格審核。
IMO 的題目之所以困難,是因為它們不僅需要嚴謹的多步驟推理,更需要跳脫公式框架的創造力。這也正是 IMO-Bench 的核心所在。它不只關心 AI 能否算出答案,更關心 AI 能否「思考」。
IMO-Bench 主要由三個部分組成,各有側重:
- IMO-AnswerBench:大規模測試,包含 400 道題目,專注於評估模型「給出正確答案」的能力。
- IMO-ProofBench:進階評估,包含 60 道題目,旨在檢驗模型「撰寫嚴謹證明過程」的能力。
- IMO-GradingBench:包含 1000 個案例,用於推動「自動評估長篇答案」的技術進展。
這套基準的發布,就是希望引導社群的焦點從單純的「最終答案」轉移到更為關鍵的「證明過程」本身,從而實現對 AI 推理能力的更嚴格評估。
超越標準答案:IMO-ProofBench 的挑戰
過去,我們評估 AI 的數學能力,往往只看答案的準確率。但這遠遠不夠。一個真正懂數學的系統,必須能夠建構出嚴謹、有效的數學論證。
為此,IMO-Bench 推出了 IMO-ProofBench,它將評估提升到了一個新層次。這個基準包含 60 個需要證明的問題,並分為兩個子集:
- 基礎集 (Basic):涵蓋從 IMO 賽前到中等難度的題目,用於評估模型在發展初期的推理能力。
- 進階集 (Advanced):包含全新且極具挑戰性的題目,模擬真實 IMO 考試的最高難度。
測試結果顯示,不同模型間的表現差異巨大。在基礎集上,Gemini Deep Think (IMO Gold) 取得了 89.0% 的高分,但多數模型的得分仍低於 60%。
而在更具挑戰性的進階集上,差距更加明顯。所有非 Gemini 模型的得分都低於 25%,而 Gemini Deep Think 則達到了目前最先進的 65.7%。這個成績雖然是巨大的飛躍,但也說明,即便是最強大的模型,在通往完美數學推理的道路上,依然有很長的路要走。
AI 能批改 AI 的考卷嗎?ProofAutoGrader 的誕生
儘管人類專家的評估是檢驗數學證明的黃金標準,但其高昂的時間和人力成本限制了大規模研究的可行性。
為了解決這個難題,DeepMind 團隊打造了 ProofAutoGrader,一個基於 Gemini 2.5 Pro 的自動評分工具。它的工作方式是:提供問題描述、候選解答、參考答案和具體的評分指南,讓 AI 自動為證明過程打分。
結果令人振奮。在對 14 個公開模型進行測試時,ProofAutoGrader 的評分結果與人類專家的評分結果高度相關,其皮爾森相關係數在基礎集和進階集上分別達到了驚人的 0.96 和 0.93。這意味著,AI 自動評分不僅可行,而且相當可靠,為未來大規模、可擴展的 AI 推理研究鋪平了道路。
從排行榜看 AI 推理的真實差距
| Model | Advanced Proof | Bench Breakdown | Query date | Novel | IMO 2024† | USAMO 2025 |
|---|---|---|---|---|---|---|
| Gemini Deep Think (IMO Gold) | 65.7% | 61.1% | 2025-08-02 | 76.2% | 69.0% | |
| Gemini Deep Think (IMO lite) | 37.6% | 31.7% | 2025-08-20 | 40.5% | 52.4% | |
| Gemini 2.5 Pro with (Huang & Yang, 2025) | 24.8% | 17.5% | 2025-07-14 | 19.1% | 52.4% | |
| Grok 4 (heavy) | 23.3% | 11.1% | 2025-07-12 | 7.1% | 76.2% | |
| o3 | 20.5% | 15.1% | 2025-08-04 | 4.8% | 52.4% | |
| GPT-5 | 20% | 15.9% | 2025-09-18 | 33.3% | 19.0% | |
| Grok 4 | 18.6% | 17.5% | 2025-08-20 | 16.7% | 23.8% | |
| Gemini 2.5 Pro | 17.6% | 15.9% | 2025-08-04 | 7.1% | 33.3% | |
| o4-mini (high reasoning) | 11.4% | 8.7% | 2025-08-04 | 7.1% | 23.8% | |
| Kimi-K2-Instruct | 7.1% | 4% | 2025-08-21 | 2.4% | 21.4% | |
| Qwen3-235B | 5.2% | 7.1% | 2025-08-21 | 0.0% | 4.8% | |
| Claude Sonnet 4 | 4.8% | 6.4% | 2025-09-17 | 2.4% | 2.4% | |
| DeepSeek V3 | 4.3% | 6.3% | 2025-09-16 | 2.4% | 0.0% | |
| DeepSeek R1 | 3.8% | 6.4% | 2025-09-16 | 0.0% | 0.0% | |
| Claude Opus 4 | 2.9% | 0.0% | 2025-08-04 | 2.4% | 11.9% |
IMO-Bench 的排行榜揭示了一個有趣的現象:某些模型可能存在「過擬合」的問題。
例如,Grok 4 (heavy) 模型在 USAMO 2025 的題目上得分高達 76.2%,但在全新的、未見過的題目上卻只有 11.1%。這表明它的強大表現可能過度依賴於特定的數據集。
相比之下,Gemini Deep Think (IMO Gold) 在 USAMO 題目和新題目上分別獲得了 69.0% 和 61.1% 的分數,顯示出其更為通用的推理能力,而沒有過度擬合特定數據。
這也凸顯了 IMO-ProofBench 的價值:它不僅能評估模型的最高水平,還能揭示其能力的通用性和穩健性,幫助研究人員更全面地理解模型的數學能力。
未來展望:共同推動 AI 的數學思維
Google DeepMind 選擇將 IMO-Bench 連同豐富的評分數據一起開放給整個社群,是希望藉此激發更多的創新與合作。
透過提供一個更嚴謹、更全面的評估標準,研究人員可以更準確地衡量模型的進步,並專注於開發具備真正創造力和深刻理解力的 AI 系統。這不只關乎數學,更關乎所有需要複雜推理能力的領域。
想了解更多關於這些基準和結果的詳細資訊嗎?可以查看他們的 官方論文、數據集 和 排行榜。AI 數學推理的下一篇章,正等著我們共同書寫。


