不僅是奪金：Google DeepMind 推出 IMO-Bench，為 AI 數學推理能力樹立新標竿

Google DeepMind 在其 Gemini 模型於國際數學奧林匹亞（IMO）競賽達到金牌標準後，正式發布 IMO-Bench。這不只是一個評測工具，更是一套推動 AI 從「解決問題」邁向「深度推理」的全新基準，旨在引領 AI 領域進入更強健、更富創造力的數學推理新時代。

AI 數學競賽奪金之後，我們該關注什麼？

2025 年 7 月，人工智慧領域迎來了一個歷史性的時刻：Google DeepMind 的先進 Gemini 模型，搭載了 Deep Think 技術，在國際數學奧林匹亞（IMO）競賽中達到了金牌標準。這無疑是 AI 發展的重大里程碑。

然而，這場勝利的意義遠不止於在 IMO 等級的難題上取得優異成績。真正的目標，是打造一個能夠進行深度、穩健數學推理的系統。畢竟，只給出正確答案是不夠的，理解並證明「為何如此」才是通往真正智慧的關鍵。

正是基於這樣的理念，在 EMNLP 2025 大會上，Google DeepMind 隆重推出了 IMO-Bench——一套先進的推理基準測試。它不僅在 Gemini 的奪金之路上扮演了核心角色，更旨在為整個 AI 社群推開數學推理能力的新大門。

所以，IMO-Bench 到底是什麼？

簡單來說，IMO-Bench 是一套專門用來評估 AI 模型數學能力的「考題」。但這可不是普通的考試，它的所有題目都經過了由 10 位 IMO 金牌和 5 位銀牌得主組成的專家小組嚴格審核。

IMO 的題目之所以困難，是因為它們不僅需要嚴謹的多步驟推理，更需要跳脫公式框架的創造力。這也正是 IMO-Bench 的核心所在。它不只關心 AI 能否算出答案，更關心 AI 能否「思考」。

IMO-Bench 主要由三個部分組成，各有側重：

IMO-AnswerBench：大規模測試，包含 400 道題目，專注於評估模型「給出正確答案」的能力。
IMO-ProofBench：進階評估，包含 60 道題目，旨在檢驗模型「撰寫嚴謹證明過程」的能力。
IMO-GradingBench：包含 1000 個案例，用於推動「自動評估長篇答案」的技術進展。

這套基準的發布，就是希望引導社群的焦點從單純的「最終答案」轉移到更為關鍵的「證明過程」本身，從而實現對 AI 推理能力的更嚴格評估。

超越標準答案：IMO-ProofBench 的挑戰

過去，我們評估 AI 的數學能力，往往只看答案的準確率。但這遠遠不夠。一個真正懂數學的系統，必須能夠建構出嚴謹、有效的數學論證。

為此，IMO-Bench 推出了 IMO-ProofBench，它將評估提升到了一個新層次。這個基準包含 60 個需要證明的問題，並分為兩個子集：

基礎集 (Basic)：涵蓋從 IMO 賽前到中等難度的題目，用於評估模型在發展初期的推理能力。
進階集 (Advanced)：包含全新且極具挑戰性的題目，模擬真實 IMO 考試的最高難度。

測試結果顯示，不同模型間的表現差異巨大。在基礎集上，Gemini Deep Think (IMO Gold) 取得了 89.0% 的高分，但多數模型的得分仍低於 60%。

而在更具挑戰性的進階集上，差距更加明顯。所有非 Gemini 模型的得分都低於 25%，而 Gemini Deep Think 則達到了目前最先進的 65.7%。這個成績雖然是巨大的飛躍，但也說明，即便是最強大的模型，在通往完美數學推理的道路上，依然有很長的路要走。

AI 能批改 AI 的考卷嗎？ProofAutoGrader 的誕生

儘管人類專家的評估是檢驗數學證明的黃金標準，但其高昂的時間和人力成本限制了大規模研究的可行性。

為了解決這個難題，DeepMind 團隊打造了 ProofAutoGrader，一個基於 Gemini 2.5 Pro 的自動評分工具。它的工作方式是：提供問題描述、候選解答、參考答案和具體的評分指南，讓 AI 自動為證明過程打分。

結果令人振奮。在對 14 個公開模型進行測試時，ProofAutoGrader 的評分結果與人類專家的評分結果高度相關，其皮爾森相關係數在基礎集和進階集上分別達到了驚人的 0.96 和 0.93。這意味著，AI 自動評分不僅可行，而且相當可靠，為未來大規模、可擴展的 AI 推理研究鋪平了道路。

從排行榜看 AI 推理的真實差距

Model	Advanced Proof	Bench Breakdown	Query date	Novel	IMO 2024†
Gemini Deep Think (IMO Gold)	65.7%	61.1%	2025-08-02	76.2%	69.0%
Gemini Deep Think (IMO lite)	37.6%	31.7%	2025-08-20	40.5%	52.4%
Gemini 2.5 Pro with (Huang & Yang, 2025)	24.8%	17.5%	2025-07-14	19.1%	52.4%
Grok 4 (heavy)	23.3%	11.1%	2025-07-12	7.1%	76.2%
o3	20.5%	15.1%	2025-08-04	4.8%	52.4%
GPT-5	20%	15.9%	2025-09-18	33.3%	19.0%
Grok 4	18.6%	17.5%	2025-08-20	16.7%	23.8%
Gemini 2.5 Pro	17.6%	15.9%	2025-08-04	7.1%	33.3%
o4-mini (high reasoning)	11.4%	8.7%	2025-08-04	7.1%	23.8%
Kimi-K2-Instruct	7.1%	4%	2025-08-21	2.4%	21.4%
Qwen3-235B	5.2%	7.1%	2025-08-21	0.0%	4.8%
Claude Sonnet 4	4.8%	6.4%	2025-09-17	2.4%	2.4%
DeepSeek V3	4.3%	6.3%	2025-09-16	2.4%	0.0%
DeepSeek R1	3.8%	6.4%	2025-09-16	0.0%	0.0%
Claude Opus 4	2.9%	0.0%	2025-08-04	2.4%	11.9%

IMO-Bench 的排行榜揭示了一個有趣的現象：某些模型可能存在「過擬合」的問題。

例如，Grok 4 (heavy) 模型在 USAMO 2025 的題目上得分高達 76.2%，但在全新的、未見過的題目上卻只有 11.1%。這表明它的強大表現可能過度依賴於特定的數據集。

相比之下，Gemini Deep Think (IMO Gold) 在 USAMO 題目和新題目上分別獲得了 69.0% 和 61.1% 的分數，顯示出其更為通用的推理能力，而沒有過度擬合特定數據。

這也凸顯了 IMO-ProofBench 的價值：它不僅能評估模型的最高水平，還能揭示其能力的通用性和穩健性，幫助研究人員更全面地理解模型的數學能力。

未來展望：共同推動 AI 的數學思維

Google DeepMind 選擇將 IMO-Bench 連同豐富的評分數據一起開放給整個社群，是希望藉此激發更多的創新與合作。

透過提供一個更嚴謹、更全面的評估標準，研究人員可以更準確地衡量模型的進步，並專注於開發具備真正創造力和深刻理解力的 AI 系統。這不只關乎數學，更關乎所有需要複雜推理能力的領域。

想了解更多關於這些基準和結果的詳細資訊嗎？可以查看他們的官方論文、數據集和排行榜。AI 數學推理的下一篇章，正等著我們共同書寫。

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Recommended for You

A …

tool

AI 模型繪圖能力大對決：9 款頂尖 LLM 的 SVG 生成實測

當大型語言模型開始挑戰「視覺程式碼」，誰才是真正的贏家？本文深入解析 Claude Sonnet 4.5、GPT-5.1、Gemini 3.0 等 9 款頂尖 AI 模型的 SVG 生成評測，探討這些模型在 30 個創意提示詞下的表現，並分析這對開發者與設計師意味著什麼。程式碼與藝術的交匯點你有沒有想過，那些擅長寫 Python 或 JavaScript 的人工智慧，如果被要求「畫畫」會發生什麼事？這裡指的不是像 Midjourney 那樣生成像素圖片，而是撰寫 SVG（可縮放向量圖形）程式碼。這就像是要求一個數學家透過寫公式來畫出一隻貓，聽起來很瘋狂，但這正是目前 AI 領域最有趣的戰場之一。最近一項名為「LLM SVG Generation Benchmark」的評測引起了廣泛關注。這項測試集結了目前市面上最強大的 9 款 AI 模型，讓它們挑戰 30 個極具創意的 SVG 生成指令。這不單是測試誰的程式碼寫得對，更是測試這些模型是否具備「空間推理」與「視覺想像」的能力。這場對決的參賽者名單堪稱夢幻陣容，包含了從 Anthropic、OpenAI、Google 到 xAI 和阿里巴巴等科技巨頭的最新力作。參賽選手介紹：2025 年的頂尖戰力這份評測名單透露出一個訊息，AI 模型的迭代速度簡直快得驚人。讓我們仔細看看這 9 位選手，它們代表了目前大型語言模型（LLM）的最高水準： Claude Sonnet 4.5 (Anthropic)：向來以寫程式邏輯嚴謹著稱，這次升級版能否在圖形邏輯上延續優勢？ Claude Opus 4.5 (Anthropic)：作為 Anthropic 的旗艦款，理論上在處理複雜指令時應有更細膩的表現。 Grok Code Fast 1 (xAI)：擁有 314B 參數的 MoE（混合專家）架構，主打速度與程式碼生成，是馬斯克旗下 xAI 的重要戰力。 Gemini 2.5 Pro (Google)：Google 的主力模型，在多模態理解上一直表現不俗。 Gemini 3.0 Pro Preview (Google)：這是 Google 下一代的預覽版，讓人期待是否有突破性的架構改進。 DeepSeek V3.2-Exp (685B/37B MoE)：來自開源社群的強大挑戰者，龐大的參數量暗示了它對複雜世界的理解力。 GLM-4.6 (Zhipu AI, 355B/32B MoE)：智譜 AI 的最新迭代，展現了中文語系模型在程式碼領域的競爭力。 Qwen3-VL-235B-A22B-Thinking (Alibaba)：阿里雲的通義千問系列，特別標註了「Thinking」，暗示其強化了推論過程（CoT），這對圖形生成至關重要。 GPT-5.1 (OpenAI)：作為市場的標竿，GPT 系列的每一次更新都是眾人焦點，5.1 版本勢必在創造力上有所提升。為什麼 SVG 生成這麼難？或許你會問，生成一張圖有什麼難的？DALL-E 不早就做到了嗎？

Dec 2, 2025 Read →

L …

tool

LLM 智慧體期中考：VitaBench 揭示殘酷真相，頂尖模型成功率僅 30%？

當我們以為大型語言模型（LLM）驅動的 AI 智慧體（Agent）無所不能時，美團 LongCat 團隊發布的最新評測基準 VitaBench 卻給了整個產業一記當頭棒喝。這項堪稱「最難模擬考」的測試顯示，即使是頂尖的 AI 模型，在處理複雜的真實世界任務時，成功率也低得驚人。這究竟是怎麼回事？當 AI 智慧體走出實驗室，現實給了它一巴掌近年來，大型語言模型（LLM）驅動的 AI 智慧體（Agent）無疑是科技圈最炙手可熱的話題。我們想像著，未來只要動動嘴，AI 助理就能幫我們處理預訂餐廳、規劃旅遊、安排外送等一切大小事。聽起來很美好，對吧？但現實總是有點骨感。目前的 AI 智慧體，在單純、封閉的環境下或許表現不錯，就像是在駕訓班的練習場開車，一切順利。然而，一旦將它們放到真實世界的十字路口——充滿了突發狀況、模糊指令和多重任務的複雜環境——它們還能應付自如嗎？答案可能讓你有些失望。過去的許多評測基準，都過於簡化問題，無法真正反映現實生活的複雜性。這就像用一元一次方程式去評估一位數學家的能力，完全沒測出真本事。 VitaBench：為 AI 智慧體打造的「終極試煉場」為了解決這個問題，美團的 LongCat 團隊推出了 VitaBench——一個專為評測 LLM 智慧體在真實世界應用中表現而設計的全新、高難度基準。你可以把 VitaBench 想像成一個極度擬真的「生活模擬器」。它不再是紙上談兵，而是直接將 AI 丟進我們最熟悉的三大生活場景：美食外送到店消費線上旅遊服務這個模擬環境有多複雜？它整合了高達 66 種不同的工具（Tools），從查詢店家資訊、訂位、下單到支付，幾乎涵蓋了所有可能的操作。不只是單一任務，而是「跨場景」的連續挑戰 VitaBench 的核心挑戰在於它的任務設計。它不僅有 300 個單一場景的任務，更設計了 100 個極具挑戰性的「跨場景任務」。這是什麼概念？舉個例子，一個真實的用戶需求可能是：「幫我預訂一家能看到河景的飯店，並在入住當晚，在飯店附近找一家評價不錯、不辣的餐廳，預算 200 美元。」這個任務要求 AI 智慧體：理解複雜意圖：不只要訂飯店，還要訂餐廳，並且兩者有關聯。跨時空推理：需要處理入住日期、晚餐時間、飯店與餐廳的地理位置關係。靈活使用工具：必須先用「飯店預訂工具」，再根據結果使用「餐廳搜尋工具」。主動澄清：如果用戶指令模糊，AI 需要主動追問，例如「您希望的餐廳是哪種菜系？」追蹤動態意圖：在多輪對話中，用戶可能會改變主意，AI 需要能跟上節奏。老實說，這對人類來說都有點複雜，更何況是 AI？殘酷的成績單：頂尖 AI 也紛紛「陣亡」那麼，在這場終極試煉中，當今最強大的 AI 模型們表現如何呢？

Oct 21, 2025 Read →

A …

tool

AI 模型最新排名出爐：為何最強大的模型不一定每次都贏？

探索最新的 AI 模型任務完成度評測報告 TaskBench。令人驚訝的是，Gemini 2.5 Flash 等模型在特定任務上的表現超越了許多知名的大型模型。本文將深入解析評測結果，並探討為何「更大」不等於「更好」。 AI 世界的風向變了？新評測揭示驚人結果在人工智慧的領域裡，我們總是在追逐下一個更強大、更聰明的模型。從 GPT 系列到 Claude，再到 Gemini，各大巨頭的軍備競賽似乎永無止境。但如果比較的標準不只是學術測驗，而是真實世界中的任務完成能力，結果會是如何？最近，一份名為 TaskBench 的綜合評測報告引起了廣泛關注。這份報告不玩虛的，它直接測試各大語言模型在處理實際工作時的表現。結果呢？可以說是有點出乎意料。Google 的 Gemini 2.5 Flash 最新版本在整體任務完成度上名列前茅，在某些方面甚至超越了那些聽起來更「重量級」的對手。這份報告不僅僅是一張排名表，它更像一面鏡子，反映出 AI 在實用性層面的真實樣貌。所以，TaskBench 到底是什麼？在我们深入探討排名之前，得先聊聊 TaskBench 是什麼，以及它為何如此重要。簡單來說，TaskBench 是一個全面的評估套件，專門用來測試語言模型處理真實世界 AI 任務的能力。它和那些偏重學術理論的基準測試不太一樣，TaskBench 更關心的是「這東西到底能不能用」。它的評估方式很實際：每一個測試樣本都模擬一次 API 請求，包含結構化的輸入和輸出，完全比照開發者在實際應用中會遇到的情況。這代表 TaskBench 的分數，直接反映了一個模型在接到具體指令時，能否漂亮地完成任務。最新 AI 模型任務完成度排行榜好了，話不多說，直接來看數據。這份榜單根據模型在三大核心能力上的表現進行排名：情境理解 (Context)、SQL 生成和代理能力 (Agents)。分數代表模型成功完成任務的百分比。排名模型情境理解 (Context) SQL 生成 (SQL) 代理能力 (Agents) #1 grok-4-fast-reasoning 95.0% 94.2% 93.0% #2 gemini-flash-latest 93.3% 95.8% 87.0% #3 grok-4 88.3% 95.8% 91.0% #4 claude-sonnet-4 96.7% 90.0% 89.0% #5 o3 93.3% 93.3% 91.0% #6 claude-opus-4.1 91.7% 95.0% 87.0% #7 claude-sonnet-4.5 98.3% 95.0% 85.0% #8 glm-4.5 90.0% 95.0% 83.0% #9 gpt-5-mini 96.7% 95.0% 83.0% #10 claude-opus-4 93.3% 94.2% 83.0% #11 gpt-5 88.3% 95.0% 87.0% #12 o1 91.7% 96.7% 75.0% #13 claude-3.5-sonnet 90.0% 91.7% 85.0% #14 grok-3 86.7% 91.7% 81.0% #15 claude-3.7-sonnet 86.7% 94.2% 83.0% #16 gemini-2.5-flash 93.3% 93.3% 77.0% #17 o4-mini 88.3% 94.2% 87.0% #18 gpt-oss-120b 88.3% 94.2% 85.0% #19 gemini-2.5-pro 93.3% 91.7% 75.0% #20 gpt-4.1 83.3% 96.7% 83.0% 想看完整的 48 個模型排名和詳細數據嗎？可以前往 Opper 的官方頁面查看。

Oct 9, 2025 Read →