這是一個瘋狂的週末,AI 領域的新聞簡直像雪崩一樣湧來。如果您覺得之前的模型更新速度已經夠快了,那這兩天的發展可能會讓您重新定義什麼叫「效率」。這次我們不談那些虛無縹緲的概念,直接來看看這四家巨頭到底端出了什麼牛肉。
從 Google 讓 AI 像科學家一樣思考,到 MiniMax 和 OpenAI 在編碼速度上的正面對決,再到 Anthropic 那個令人瞠目結舌的估值數字,每一項更新都暗示著同一個趨勢:AI 不再只是陪聊的玩具,它正在成為解決複雜科學問題和工程難題的實戰工具。
Google Gemini 3 Deep Think:不只是寫程式,它開始搞科研了
還記得 Google 之前的模型在數學競賽上的表現嗎?這次他們不僅僅是為了拿獎牌,而是真的想讓 AI 解決現實世界中的科學難題。Google 剛剛宣佈了 Gemini 3 Deep Think 的重大更新,這是一個專門為了推理而生的模式。
老實說,這次的升級讓人有點起雞皮疙瘩。它不再只是單純地處理數據,而是學會了像科學家一樣「思考」。
像諾貝爾獎得主那樣推理
Gemini 3 Deep Think 這次在科學領域的表現簡直是統治級的。它在 2025 年國際物理奧林匹亞和化學奧林匹亞的筆試部分都拿到了金牌水準的成績。更誇張的是,它在一個叫做「人類最後的考試」(Humanity’s Last Exam)的基準測試中,在不使用任何工具的情況下拿到了 48.4% 的分數。要知道,這個測試可是專門設計來探測模型極限的。
這裡有個很棒的例子:羅格斯大學的數學家 Lisa Carbone 利用 Deep Think 審查了一篇關於高能物理的技術論文。結果這傢伙居然找出了一個連人類同行評審都沒發現的邏輯漏洞。這說明了它已經具備了協助頂尖科研人員的潛力。
從草圖到 3D 列印
除了抽象的理論,它在工程應用上也變聰明了。您現在可以在紙上隨手畫個草圖,Deep Think 就能分析這個圖形,建立複雜的幾何模型,甚至直接生成可以拿去 3D 列印的檔案。這對於那些腦子裡有想法但懶得畫 CAD 的工程師來說,絕對是一大福音。
MiniMax M2.5:這位「虛擬架構師」比你想像的更便宜
如果說 Google 在追求科學的極致,那麼 MiniMax 則是在追求極致的生產力與性價比。他們剛剛發布了 MiniMax M2.5 模型,這個版本的核心理念非常明確:為真實世界的生產力而生。
先寫規格書,再寫程式碼
這大概是 M2.5 最有趣的地方。很多 AI 寫程式是想到哪寫到哪,但 M2.5 在訓練過程中展現出了一種「架構師」的特質。在敲下任何一行代碼之前,它會先像個經驗豐富的軟體架構師一樣,把功能、結構和 UI 設計規劃得清清楚楚。
這種「謀定而後動」的策略讓它在 SWE-Bench Verified(一個軟體工程基準測試)中拿下了 80.2% 的高分。這意味著它不只是在修 bug,而是真的能處理從系統設計到功能迭代的完整開發週期。對於開發者來說,您可以去 HuggingFace 試試看它的能耐。
快到不可思議,便宜到像免費
這裡有個瘋狂的數據:M2.5 的推理速度達到了每秒 100 個 token,這幾乎是其他前沿模型的兩倍。更扯的是它的價格,如果你讓它以這個速度連續跑一個小時,成本只要 1 美元。如果是每秒 50 token 的速度,成本甚至降到 0.3 美元。這意味著什麼?意味著我們離「智慧太便宜而不必計量」的未來又近了一大步。
OpenAI GPT-5.3-Codex-Spark:與硬體晶片的極速聯姻
OpenAI 這邊也沒有閒著,他們顯然意識到「速度」在即時協作中的重要性。於是他們推出了 GPT-5.3-Codex-Spark。注意這個「Spark」,它代表這是一個專為即時編碼設計的超快模型。
軟硬體整合的勝利
這次發布最值得關注的其實不是模型本身,而是 OpenAI 與晶片新創公司 Cerebras 的合作。Codex-Spark 運行在 Cerebras 的 Wafer Scale Engine 3 上,這是一種專門為 AI 推理設計的硬體。
結果就是,這玩意兒的生成速度超過了每秒 1000 個 token。沒錯,是 1000。這讓編碼體驗幾乎變成了「瞬間完成」。這解決了一個很大的痛點:當你在寫程式時,你不想等 AI 轉圈圈,你要的是它能跟上你的思緒。
專注於「當下」的微調
與擅長長程推理的模型不同,Codex-Spark 被設計成輕量級的助手。它適合做那些針對性的修改、重構邏輯或是調整介面。它雖然目前只有純文字功能和 128k 的上下文窗口,但對於那種需要快速迭代的開發場景來說,這種低延遲的體驗才是開發者最需要的。
Anthropic:企業級 AI 的王者地位
最後,我們得談談錢。雖然 Anthropic 這次沒有發布新模型,但他們剛剛宣布了一個震驚業界的消息:完成 300 億美元的 G 輪融資。
3800 億美元的背後
這輪融資讓 Anthropic 的估值來到了驚人的 3800 億美元。這筆錢是為了什麼?當然是為了更強大的算力和基礎設施。投資者名單由 GIC 和 Coatue 領投,並包含微軟與 NVIDIA 的投資,陣容堪稱豪華全明星,其模型更全面進駐 Amazon 和 Google 的雲端平台。
這反映出一個事實:企業界非常信任 Claude。Anthropic 的年營收運轉率(run-rate revenue)已經達到了 140 億美元,而且在過去三年裡每年都增長 10 倍以上。特別是 Claude Code 這種能夠自主完成編碼任務的 Agent,正在被越來越多的企業採用。這不僅僅是融資,這是市場對「安全且強大的企業級 AI」投下的信任票。
常見問題解答 (FAQ)
Q:對於一般的程式設計師來說,MiniMax M2.5 和 OpenAI Codex-Spark 哪個更好用?
這取決於您的使用場景。如果您需要 AI 幫您從零開始規劃整個系統,或者處理非常複雜、需要長時間思考的架構問題,MiniMax M2.5 的「架構師思維」和極低的成本可能更適合您,它擅長把大任務拆解清楚。但如果您是在寫代碼的當下,需要一個能跟上您手速、瞬間給出補全建議或進行小範圍重構的助手,OpenAI Codex-Spark 那每秒 1000 token 的速度會讓您感覺更流暢,完全不會打斷心流。
Q:Google 的 Deep Think 模式現在可以用到了嗎?
是的,新的 Deep Think 模式現在已經在 Gemini App 中向 Google AI Ultra 的訂閱用戶開放了。如果您是開發者或企業用戶,Google 也首次透過 Gemini API 開放了 Deep Think 的早期訪問權限。不過要注意,這是一個專門為了深度推理設計的模式,處理日常閒聊可能有點大材小用。
Q:Anthropic 融了這麼多錢,對普通用戶有什麼影響?
短期內,這意味著 Anthropic 有足夠的銀彈去購買更多 GPU (如 AWS Trainium 和 Google TPU) 並訓練下一代模型(比如傳說中的 Claude 4 或 5)。這保證了 Claude 系列模型在未來的幾年內仍將是市場上最強大的競爭者之一,特別是在處理長文本和複雜邏輯方面。這也暗示了他們會繼續強化 Claude 在企業端的應用,比如更強大的安全性和隱私保護。


