AI日報｜AlphaProof 攻克數學難題、Grok V9、MiniCPM5-1B 與 NuExtract3 解析

AI 技術新突破：AlphaProof 解開數學謎題與 Grok V9 強化程式能力解析

本文詳細介紹近期人工智慧領域的重大進展。內容涵蓋 DeepMind 成功解決長達半世紀數學難題的過程，以及 Grok V9、MiniCPM5 與 NuExtract3 模型的最新技術與實務應用，帶領讀者一窺這些技術如何改變未來的運算面貌。

說真的，有時候看著人工智慧的進展，會讓人感到一陣屏息。各種嶄新的運算模型與演算法正如雨後春筍般湧現。從理論數學的重大突破，一直到終端設備應用模型的推陳出新，各項技術的交疊發展令人目不暇給。這裡來詳細說明一下近期幾項最具代表性的 AI 發展，探討這些技術究竟帶來了哪些實質上的改變。

數學界的震撼彈：AlphaProof Nexus 攻克半世紀難題

事情是這樣的。那些塵封幾十年的未解之謎，如今居然被演算法一一解開了。這聽起來簡直像科幻小說的情節，但卻真實發生了。

根據這篇名為 Advancing Mathematics Research with AI-Driven Formal Proof Search 的論文記載，Google DeepMind 開發的 AlphaProof Nexus 系統，成功且自主地解決了 9 個開放的 Erdős 數學問題。其中有兩個問題甚至已經懸宕了整整 56 年。大家可能會好奇，這代表著什麼？以往的語言模型雖然聰明，但在處理嚴謹數學證明時，往往會產生邏輯上的幻覺。這套新系統巧妙結合了大型語言模型與 Lean 形式化語言，讓編譯器能夠自動驗證每一個邏輯步驟，確保證明的絕對正確性。

提到數學證明，一般人腦海中浮現的可能是一整黑板的複雜公式，甚至有些令人望而生畏。不過這恰好是邏輯嚴謹的語言模型最能發揮所長的地方。AlphaProof Nexus 採用了非常特別的架構設計。系統內部包含多個子代理程式，彼此獨立運作並尋找證明。更進階的版本甚至導入了演化演算法，讓模型能夠從過往的嘗試中學習並持續進化。

令人驚訝的是整個過程的成本效益。針對這些極度困難的數學問題，系統解決單一問題的推論成本僅需幾百美元。此外，該系統還成功證明了線上整數數列大典（OEIS）中 492 個猜想裡的 44 個。這無疑為數學研究帶來了全新的輔助工具，讓研究人員能夠將更多精力集中在概念的發想上。

Grok V9-Medium 訓練完成：強化程式撰寫能力的下一步

除了學術研究的震撼，產業界的腳步也毫不遜色。馬斯克最近在社群平台上發布了關於 Grok V9-Medium 訓練完成的貼文，引發了技術圈的熱烈討論。

這款擁有 1.5 兆參數的基礎模型 V9-Medium 已經完成初步訓練，目前的評估數據看起來相當優異。模型在補充訓練階段加入了大量來自 Cursor 的數據。熟悉開發工具的讀者一定知道，Cursor 在程式碼輔助編輯領域有著極高的評價。這個舉動明顯是為了大幅度提升 Grok 處理複雜程式碼任務的能力。

目前微調工作正在緊鑼密鼓地進行中，強化學習階段也將於幾天內展開。預計再過兩到三週，這款模型就會正式與大眾見面。相較於目前負責處理所有 Grok 生產流量的 0.5 兆參數 v8-small 版本，V9-Medium 將帶來一次巨大的性能飛躍。特別是針對那些邏輯繁瑣、需要高度前後文理解的困難程式編寫任務，新版本預期將展現出更強大的支援能力。

終端設備的推理小巨人：MiniCPM5-1B 登場

既然提到了大型模型的進展，也絕對不能忽略那些在資源受限環境下表現亮眼的小巧模型。畢竟，許多實際應用場景並沒有無限的雲端運算資源可以揮霍。

由 OpenBMB 推出的這款 10 億參數規模模型，專為終端設備與本地部署而生。大家可以前往MiniCPM5-1B 的專案頁面查看詳細資訊。這款密集型 Transformer 模型在同量級的開源模型中達到了頂尖水準。它特別擅長代理工具的使用、程式碼生成以及困難的邏輯推理。

這款模型引入了混合推理（Hybrid Reasoning）機制，內建了思維模式的聊天模板。使用者可以根據需求，自由切換模型要作為一個快速反應的助手，還是一個需要深思熟慮的推理者。開發團隊採用了精細的資料層級管理策略進行訓練，並結合了監督式微調、強化學習等技術。對於想要在本地端運行智能應用的開發人員來說，可以參考其GitHub 資源進行部署，或者直接到線上體驗平台親自測試它的實際表現。

結構化數據與 OCR 的雙效合一：NuExtract3 視覺語言模型

說到日常開發與企業應用，處理繁雜的文件往往是最讓人頭痛的環節。從 PDF 檔案、螢幕截圖、表單到收據，如何準確抓取資訊一直是個難題。這裡介紹另一款非常實用的新工具。

根據官方的NuExtract3 發布消息指出，NuMind 團隊推出了一款基於 Qwen3.5-4B 的 40 億參數視覺語言模型。它採用 Apache-2.0 授權，最大特色在於將結構化數據提取（輸出為 JSON）與內容提取（輸出為 Markdown 的 OCR 功能）完美結合在單一模型中。

如果您曾經使用過NuMarkdown這款實用的工具，那麼 NuExtract3 就是它的全面升級版。開發團隊透過強化學習賦予了這款模型卓越的提取推理能力，而且這種推理功能還可以根據任務需求隨時開啟或關閉。

為了讓模型具備優秀的長文本理解力，開發團隊動用了 8 張 H100 顯示卡進行了為期 3 天的訓練。這款模型對硬體的要求相當親民，只需大約 4GB 的顯示記憶體就能順暢運行。同時官方也提供了 Safetensors 以及 GGUF 等多種權重量化格式。讀者可以直接前往免費的Hugging Face 體驗空間試用，不需註冊即可操作。若需進一步整合，也可以查閱Hugging Face 模型頁面與相關模型集合，獲取更多部署細節。

常見問題解答 (FAQ)

為了幫助讀者更清楚地掌握本文重點，以下整理了幾個常見的相關問題與解答。

Q1：AlphaProof Nexus 解決 Erdős 數學問題的意義為何？ 這項成就證明了大型語言模型搭配形式化驗證工具，能夠確實避免邏輯上的幻覺。系統以極低的推論成本解決了懸宕超過半世紀的數學難題，為未來的數學理論研究提供了一套極具價值的自動化輔助工具。

Q2：Grok V9-Medium 預計何時會正式對外發布？ 目前模型已完成基礎訓練並加入 Cursor 數據，正在進行強化學習與微調。預計在兩到三週內就會對公眾發布，屆時將大幅提升複雜程式碼任務的處理能力。

Q3：MiniCPM5-1B 適合應用在哪些情境？ 這款 10 億參數的模型專為資源受限的終端設備與本地端部署設計。它具備混合推理功能，非常適合用於開發本地程式碼助手、輕量級代理工具以及需要邏輯推理的邊緣運算情境。

Q4：NuExtract3 與傳統的 OCR 工具有什麼不同？ NuExtract3 是一款兼具結構化提取與內容提取的視覺語言模型。它不僅能將文件圖像轉換為 Markdown 格式，還能根據指定的範本提取出精確的 JSON 數據，特別擅長處理包含表格、表單與複雜排版的文件。

分享至:

Featured Partners

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

Recommended for You

A …

news

AI日報：GPT-5.6系列登場、Muse Spark 1.1發布、ChatGPT Work與Sites上線、Claude反思功能、Mistral版控系統

AI日報：GPT-5.6系列登場、Muse Spark 1.1發布、ChatGPT Work與Sites上線、Claude反思功能、Mistral版控系統科技領域的演進腳步從未停歇。今天各大廠紛紛祭出重磅更新，從能夠接手繁雜專案的智慧工作站，到全面革新的多模態推論模型，每一項進展都牽動著未來的軟體開發與日常工作模式。接下來將為大家逐一梳理這些令人興奮的新消息。 Anthropic 推出 Claude 反思功能檢視工作習慣你知道嗎？每天頻繁使用 AI 工具，往往會忘記停下來檢視這些習慣是否真的有幫助。Anthropic 最新推出了 Claude 反思功能，邀請使用者回顧過去 1 個月至一整年的對話模式。這項功能提供一個專屬的儀表板，清楚顯示你最常在哪個時段使用 Claude，以及花費最多時間的任務類型。老實說，這對調整工作步調非常有幫助。這項設計巧妙地結合了 4D AI 流暢度架構，涵蓋委派、描述、判斷與勤勉四個面向。系統會給出實用的操作建議。舉例來說，與其每次都重新解釋背景，系統會建議你直接建立一個專案。隱私保護同樣做得滴水不漏，無痕對話與醫療整合資料都會被排除在外，絕對保障敏感資訊的安全。這項新功能目前已向開啟記憶功能的 Free、Pro 與 Max 用戶推出測試版。 OpenAI 發布 GPT-5.6 模型系列接下來看看 OpenAI 的大動作。GPT-5.6 模型系列正式登場。這次帶來了頂級旗艦款 Sol、適合日常協作的 Terra，以及主打極致成本效益的 Luna。說真的，這次的效能提升相當驚人。Sol 在程式碼編寫、網路安全與科學研究等專業領域的表現，皆創下極高的效能測試分數。處理極度複雜的任務時，OpenAI 引入了 ultra 設定。這個模式會預設協調四個智慧體同步處理平行工作流。如果需要更多的運算時間，還有 max 選項能讓系統反覆推敲並修改方案。整體而言，Terra 與 Luna 用更少的輸出 token 達成超越以往的結果，同時大幅降低花費。這對需要精算預算的開發團隊來說，絕對是個好消息。

Jul 10, 2026 Read →

A …

news

AI日報｜Grok 4.5 聯合發布、GPT-Live 全雙工語音、SWE-1.7 開發突破、GRAM 安全開關、本地模型編程實測

AI日報｜Grok 4.5 聯合發布、GPT-Live 全雙工語音、SWE-1.7 開發突破、GRAM 安全開關、本地模型編程實測科技領域每天都在推陳出新。從程式開發到日常語音對話，各家公司紛紛端出令人驚豔的解決方案。讓我解釋一下，這些新工具究竟能為日常工作帶來哪些實質幫助。以下是今天的重點消息彙整。 Grok 4.5 攜手 Cursor，打造更順暢的開發體驗寫程式常常會卡在奇怪的邏輯盲點。老實說，遇到這種情況真的很讓人挫折。為了解決這類痛點，SpaceXAI 攜手知名開發環境 Cursor 共同訓練並推出了全新的 Grok 4.5 混合專家模型。大家可以前往 SpaceXAI 的官方發布網頁了解這款最新模型。它專門處理那些耗時且棘手的運算任務，包含軟體工程、資料科學或是複雜的金融分析，提供了極高的處理效率。除此之外，在 Cursor 的官方發布網頁中也詳細說明了這項深度合作。訓練過程不僅納入了 Cursor 的資料，還讓模型從開發者與代理工具的互動中學習。透過豐富的強化學習訓練，這個模型學會了如何從錯誤中自我恢復。這確實讓開發過程變得更加順暢。它處理指令的速度高達每秒 80 個 token，並且在資源消耗上表現得極為節省（減少了約 4.2 倍的 token 消耗）。對於每天需要處理大量程式碼的開發者來說，這無疑是一個好消息。 OpenAI 推出 GPT-Live，實現全雙工自然語音交流除了專業的開發工具，日常使用的語音科技也有了明顯進展。語音助理常常給人一種冷冰冰、一板一眼的感覺。OpenAI 全新推出的 GPT-Live 試圖打破這個刻板印象。這個模型採用了全雙工架構。這代表什麼呢？這表示系統能夠同時聆聽與說話。有人可能會問，GPT-Live 和過去的語音模式到底有什麼差別？事情是這樣的。傳統系統需要等你說完才能接話，常常會出現尷尬的空白停頓。GPT-Live 則會適時發出「嗯嗯」或「了解」的聲音，讓交流感覺就像和真人聊天一樣自然。當遇到需要查資料或推理事物的情況時，它會偷偷把任務交給背景運行的 GPT-5.5 處理。這項多工處理能力，大幅提升了互動的真實感。 Cognition 發表 SWE-1.7，以低成本達成前沿開發智慧開發軟體時，控制預算往往和追求品質互相衝突。不過，Cognition 最近發表的 SWE-1.7 模型證明了兩者其實可以兼得。它展現了極高的性價比。團隊大幅改善了基礎架構與訓練資料的精準度。

Jul 9, 2026 Read →

A …

news

AI日報：Claude 跨平台升級、Meta 媒體生成模型登場、微軟降低 Copilot 成本、中國語言模型市占成長

AI日報：Claude 跨平台升級、Meta 媒體生成模型登場、微軟降低 Copilot 成本、中國語言模型市占成長你知道嗎？人工智慧領域每天都有許多新鮮事發生。從各家科技巨頭的策略調整，到開源模型的推陳出新，這些技術正悄悄改變你我的工作方式。今天為大家整理了最新的 AI 發展動態，讓我們一起來看看這些令人振奮的進展。 Anthropic 延長 Claude Fable 5 體驗期至 7 月 12 日老實說，誰不喜歡免費體驗最新技術呢？Anthropic 聽到使用者的心聲了。他們正式宣布，將 Claude Fable 5 的推廣體驗期延長至 2026 年 7 月 12 日。這意味著現有的付費訂閱戶可以獲得更多的喘息空間，盡情測試這款強大的新模型。根據 Anthropic 官方說明的資訊，Pro、Max、Team 以及具備進階席位的企業用戶，都可以在這段期間內免費使用每週額度 50% 的 Claude Fable 5。當使用者達到這個 50% 的門檻後，系統也不會立刻中斷服務。你可以選擇使用預付點數繼續享受 Fable 5 的強大功能，或者輕鬆切換回其他 Claude 模型，繼續消耗原本的訂閱額度。這個彈性的機制非常有幫助。企業與開發團隊不需要擔心產生額外的意外費用，也能充分評估這款新模型是否符合團隊的日常工作需求。如果你的團隊還沒嘗試過，現在絕對是個好時機。

Jul 8, 2026 Read →