tool

不僅是奪金:Google DeepMind 推出 IMO-Bench,為 AI 數學推理能力樹立新標竿

November 5, 2025
Updated Nov 5
2 min read

Google DeepMind 在其 Gemini 模型於國際數學奧林匹亞(IMO)競賽達到金牌標準後,正式發布 IMO-Bench。這不只是一個評測工具,更是一套推動 AI 從「解決問題」邁向「深度推理」的全新基準,旨在引領 AI 領域進入更強健、更富創造力的數學推理新時代。


AI 數學競賽奪金之後,我們該關注什麼?

2025 年 7 月,人工智慧領域迎來了一個歷史性的時刻:Google DeepMind 的先進 Gemini 模型,搭載了 Deep Think 技術,在國際數學奧林匹亞(IMO)競賽中達到了金牌標準。這無疑是 AI 發展的重大里程碑。

然而,這場勝利的意義遠不止於在 IMO 等級的難題上取得優異成績。真正的目標,是打造一個能夠進行深度、穩健數學推理的系統。畢竟,只給出正確答案是不夠的,理解並證明「為何如此」才是通往真正智慧的關鍵。

正是基於這樣的理念,在 EMNLP 2025 大會上,Google DeepMind 隆重推出了 IMO-Bench——一套先進的推理基準測試。它不僅在 Gemini 的奪金之路上扮演了核心角色,更旨在為整個 AI 社群推開數學推理能力的新大門。

所以,IMO-Bench 到底是什麼?

簡單來說,IMO-Bench 是一套專門用來評估 AI 模型數學能力的「考題」。但這可不是普通的考試,它的所有題目都經過了由 10 位 IMO 金牌和 5 位銀牌得主組成的專家小組嚴格審核。

IMO 的題目之所以困難,是因為它們不僅需要嚴謹的多步驟推理,更需要跳脫公式框架的創造力。這也正是 IMO-Bench 的核心所在。它不只關心 AI 能否算出答案,更關心 AI 能否「思考」。

IMO-Bench 主要由三個部分組成,各有側重:

  1. IMO-AnswerBench:大規模測試,包含 400 道題目,專注於評估模型「給出正確答案」的能力。
  2. IMO-ProofBench:進階評估,包含 60 道題目,旨在檢驗模型「撰寫嚴謹證明過程」的能力。
  3. IMO-GradingBench:包含 1000 個案例,用於推動「自動評估長篇答案」的技術進展。

這套基準的發布,就是希望引導社群的焦點從單純的「最終答案」轉移到更為關鍵的「證明過程」本身,從而實現對 AI 推理能力的更嚴格評估。

超越標準答案:IMO-ProofBench 的挑戰

過去,我們評估 AI 的數學能力,往往只看答案的準確率。但這遠遠不夠。一個真正懂數學的系統,必須能夠建構出嚴謹、有效的數學論證。

為此,IMO-Bench 推出了 IMO-ProofBench,它將評估提升到了一個新層次。這個基準包含 60 個需要證明的問題,並分為兩個子集:

  • 基礎集 (Basic):涵蓋從 IMO 賽前到中等難度的題目,用於評估模型在發展初期的推理能力。
  • 進階集 (Advanced):包含全新且極具挑戰性的題目,模擬真實 IMO 考試的最高難度。

測試結果顯示,不同模型間的表現差異巨大。在基礎集上,Gemini Deep Think (IMO Gold) 取得了 89.0% 的高分,但多數模型的得分仍低於 60%。

而在更具挑戰性的進階集上,差距更加明顯。所有非 Gemini 模型的得分都低於 25%,而 Gemini Deep Think 則達到了目前最先進的 65.7%。這個成績雖然是巨大的飛躍,但也說明,即便是最強大的模型,在通往完美數學推理的道路上,依然有很長的路要走。

AI 能批改 AI 的考卷嗎?ProofAutoGrader 的誕生

儘管人類專家的評估是檢驗數學證明的黃金標準,但其高昂的時間和人力成本限制了大規模研究的可行性。

為了解決這個難題,DeepMind 團隊打造了 ProofAutoGrader,一個基於 Gemini 2.5 Pro 的自動評分工具。它的工作方式是:提供問題描述、候選解答、參考答案和具體的評分指南,讓 AI 自動為證明過程打分。

結果令人振奮。在對 14 個公開模型進行測試時,ProofAutoGrader 的評分結果與人類專家的評分結果高度相關,其皮爾森相關係數在基礎集和進階集上分別達到了驚人的 0.960.93。這意味著,AI 自動評分不僅可行,而且相當可靠,為未來大規模、可擴展的 AI 推理研究鋪平了道路。

從排行榜看 AI 推理的真實差距

ModelAdvanced ProofBench BreakdownQuery dateNovelIMO 2024†USAMO 2025
Gemini Deep Think (IMO Gold)65.7%61.1%2025-08-0276.2%69.0%
Gemini Deep Think (IMO lite)37.6%31.7%2025-08-2040.5%52.4%
Gemini 2.5 Pro with (Huang & Yang, 2025)24.8%17.5%2025-07-1419.1%52.4%
Grok 4 (heavy)23.3%11.1%2025-07-127.1%76.2%
o320.5%15.1%2025-08-044.8%52.4%
GPT-520%15.9%2025-09-1833.3%19.0%
Grok 418.6%17.5%2025-08-2016.7%23.8%
Gemini 2.5 Pro17.6%15.9%2025-08-047.1%33.3%
o4-mini (high reasoning)11.4%8.7%2025-08-047.1%23.8%
Kimi-K2-Instruct7.1%4%2025-08-212.4%21.4%
Qwen3-235B5.2%7.1%2025-08-210.0%4.8%
Claude Sonnet 44.8%6.4%2025-09-172.4%2.4%
DeepSeek V34.3%6.3%2025-09-162.4%0.0%
DeepSeek R13.8%6.4%2025-09-160.0%0.0%
Claude Opus 42.9%0.0%2025-08-042.4%11.9%

IMO-Bench 的排行榜揭示了一個有趣的現象:某些模型可能存在「過擬合」的問題。

例如,Grok 4 (heavy) 模型在 USAMO 2025 的題目上得分高達 76.2%,但在全新的、未見過的題目上卻只有 11.1%。這表明它的強大表現可能過度依賴於特定的數據集。

相比之下,Gemini Deep Think (IMO Gold) 在 USAMO 題目和新題目上分別獲得了 69.0% 和 61.1% 的分數,顯示出其更為通用的推理能力,而沒有過度擬合特定數據。

這也凸顯了 IMO-ProofBench 的價值:它不僅能評估模型的最高水平,還能揭示其能力的通用性和穩健性,幫助研究人員更全面地理解模型的數學能力。

未來展望:共同推動 AI 的數學思維

Google DeepMind 選擇將 IMO-Bench 連同豐富的評分數據一起開放給整個社群,是希望藉此激發更多的創新與合作。

透過提供一個更嚴謹、更全面的評估標準,研究人員可以更準確地衡量模型的進步,並專注於開發具備真正創造力和深刻理解力的 AI 系統。這不只關乎數學,更關乎所有需要複雜推理能力的領域。

想了解更多關於這些基準和結果的詳細資訊嗎?可以查看他們的 官方論文數據集排行榜。AI 數學推理的下一篇章,正等著我們共同書寫。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.