DeepSeek-V3.2 的發布標誌著開源語言模型的一次重大技術飛躍。透過創新的 DeepSeek 稀疏注意力(DSA)機制與大規模強化學習框架,該模型不僅大幅提升了運算效率,更在數學與程式設計領域展現出媲美甚至超越 GPT-5 與 Gemini-3.0-Pro 的實力。本文將詳細拆解 DeepSeek-V3.2 的核心架構、Agent 代理能力,並透過最新的基準測試數據,分析其在國際競賽中奪金的背後技術。
在過去幾個月裡,人工智慧領域出現了一個有趣的現象。雖然開源社群持續在進步,但在處理複雜任務時,開源模型與閉源專有模型(如 OpenAI 或 Google 的頂尖模型)之間的差距似乎正在擴大。許多人不禁要問:開源模型是否已經觸到了天花板?
DeepSeek-V3.2 的出現,似乎就是為了回答這個問題。
這不僅僅是另一個版本的更新,而是一次針對目前開源模型「痛點」的精準打擊。DeepSeek 團隊發現,現有的模型在處理長文本時效率低落,且在後訓練階段(Post-Training)的運算資源投入不足。為了解決這些問題,DeepSeek-V3.2 引入了幾項關鍵技術,試圖在效率與推理能力之間找到完美的平衡點。
本文將帶您深入了解這個新架構是如何運作的,以及它為何能在國際奧林匹亞競賽中拿下金牌。
核心架構突破:DeepSeek 稀疏注意力 (DSA)
要理解 DeepSeek-V3.2 的強大之處,我們得先聊聊它的「心臟」——注意力機制。傳統的 Transformer 模型依賴所謂的「標準注意力」(Vanilla Attention),這就像是閱讀一本書時,強迫自己必須記住每一個字與其他所有字的關聯。當書本變厚(上下文變長)時,這種方法的運算量會呈指數級暴增,導致效率極低。
DeepSeek-V3.2 引入了 DeepSeek 稀疏注意力(DeepSeek Sparse Attention, DSA)。這個機制的核心理念非常簡單:只關注重要的資訊。
閃電索引器 (Lightning Indexer)
DSA 的第一步是透過一個稱為「閃電索引器」的組件來運作。這可以想像成圖書館的分類索引系統。當模型需要處理一個查詢(Query Token)時,它不會直接去翻閱所有的資料,而是先通過這個輕量級的索引器,快速掃描並計算出哪些部分的資訊是相關的。
這個索引器使用了 ReLU 激活函數,並且可以在 FP8(低精度浮點數)下運行,這意味著它的速度非常快,幾乎不會增加額外的運算負擔。
精細化 Token 選擇機制 (Fine-Grained Token Selection)
在索引器完成了初步篩選後,DSA 會進入第二階段。系統會根據索引分數,只檢索那些分數最高的「關鍵值」(Key-Value entries)。
這就像是你通過目錄找到了特定的章節,然後只仔細閱讀那幾頁內容。透過這種方式,DeepSeek-V3.2 成功將核心注意力的複雜度大幅降低。這不僅解決了長文本處理的效率瓶頸,更重要的是,它在提升速度的同時,並沒有犧牲模型的表現。在實際測試中,這種稀疏化的處理方式在長文本任務上依然保持了極高的精準度。
強化學習框架:從追趕到超越
除了架構上的優化,DeepSeek-V3.2 在「大腦」訓練上也採取了激進的策略。過去開源模型往往在預訓練(Pre-training)階段投入巨大,但在後訓練(Post-training)階段則相對保守。
DeepSeek 團隊打破了這個慣例。
可擴展的 RL 協議
DeepSeek-V3.2 採用了一種穩定且可擴展的強化學習(RL)協議。這套框架允許模型在後訓練階段消耗大量的運算資源——其預算甚至超過了預訓練成本的 10%。
這聽起來可能很抽象,但其結果非常具體:透過這種高強度的強化學習,模型在處理複雜邏輯、數學證明和程式碼生成時的能力得到了質的飛躍。它採用了 GRPO (Group Relative Policy Optimization) 算法,並結合了無偏見的 KL 估計(Unbiased KL Estimate),確保了訓練過程的穩定性,避免了模型在學習過程中「走火入魔」或產生崩潰。
DeepSeek-V3.2-Speciale:專為推理而生
為了探究模型推理能力的極限,團隊還訓練了一個名為 DeepSeek-V3.2-Speciale 的高運算版本。這個版本是為了「炫技」而存在的,它放寬了長度限制,專注於極致的推理表現。
結果令人驚艷。在 2025 年的國際數學奧林匹亞(IMO)和國際資訊奧林匹亞(IOI)中,DeepSeek-V3.2-Speciale 均達到了金牌水平。這證明了只要給予足夠的「思考時間」和運算資源,開源架構完全有能力挑戰最頂尖的專有模型。
讓模型學會使用工具:Agent 能力的進化
光會解數學題還不夠,真正的 AI 助手需要能夠使用工具(如搜尋引擎、程式碼解釋器)來解決現實世界的問題。這就是所謂的 Agentic Capabilities(代理能力)。
解決「思考」與「行動」的衝突
過去的模型常遇到一個問題:當它開始調用工具(例如寫一段 Python 程式碼來計算)時,它往往會丟失之前的「思考脈絡」。DeepSeek-V3.2 引入了一種新的上下文管理機制。
簡單來說,當模型在進行多輪工具調用時,系統會保留它的推理過程,直到用戶輸入新的訊息為止。這確保了模型在執行複雜任務時,不會因為切換到「工具模式」而忘記了它原本的解題思路。
大規模任務合成 (Large-Scale Task Synthesis)
訓練一個好的 Agent 需要大量的數據,但真實世界的高品質互動數據很難取得。DeepSeek 的解決方案是:自己製造數據。
團隊開發了一套合成流水線,生成了超過 1,800 個不同的虛擬環境和 85,000 個複雜提示(Prompts)。這些任務涵蓋了從程式碼修復、網路搜尋到一般性的日常規劃。透過讓模型在這些合成環境中反覆練習,DeepSeek-V3.2 學會了如何在各種陌生情境下靈活運用工具,大幅提升了其泛化能力。
性能評測:數據會說話
說了這麼多技術細節,大家最關心的還是:它到底有多強?數字通常比文字更誠實。我們整理了 DeepSeek-V3.2 與目前市面上最強大的閉源模型(GPT-5-High、Gemini-3.0-Pro、Claude-4.5-Sonnet)的對比數據。
從下表可以看出,DeepSeek-V3.2 在多個領域已經不只是「追趕」,而是實現了「超越」。
模型基準測試比較 (Model Benchmark Comparison)
| 類別 (Category) | 基準測試 (Benchmark) | DeepSeek-V3.2-Speciale | DeepSeek-V3.2-Thinking | GPT-5-High | Claude-4.5-Sonnet | Gemini-3.0-Pro |
|---|---|---|---|---|---|---|
| Reasoning Capabilities | AIME 2025 (Pass@1 %) | 96.0 | 93.1 | 94.6 | 87.0 | 95.0 |
| (推理能力) | HMMT 2025 (Pass@1 %) | 99.2 | 90.2 | 88.3 | 79.2 | 97.5 |
| HLE (Pass@1 %) | 30.6 | 25.1 | 26.3 | 13.7 | 37.7 | |
| Codeforces (Rating) | 2701 | 2386 | 2537 | 1480 | 2708 | |
| Agentic Capabilities | SWE Verified (Resolved %) | N/A | 73.1 | 74.9 | 67.2 | 76.2 |
| (代理能力) | Terminal Bench 2.0 (Acc %) | N/A | 46.4 | 35.2 | 42.8 | 54.2 |
| $\tau^2$ Bench (Pass@1 %) | N/A | 80.3 | 80.2 | 84.7 | 85.4 | |
| Tool Decathlon (Pass@1 %) | N/A | 35.2 | 29.0 | 38.6 | 36.4 |
注意:
- 粗體數字表示該項目中的最高分。
- DeepSeek-V3.2-Speciale 專注於純推理任務,因此未列出其 Agentic Capabilities 數據。
數據深度解讀
數學與邏輯的統治力: 在 AIME 2025(美國數學邀請賽)中,DeepSeek-V3.2-Speciale 取得了 96.0% 的驚人成績,這不僅擊敗了 GPT-5-High (94.6%),甚至險勝了 Google 的 Gemini-3.0-Pro (95.0%)。而在 HMMT 2025 中,它更是以 99.2% 的準確率傲視群雄。這證明了在純邏輯推理領域,開源模型已經站上了世界之巔。
程式設計的宗師級表現: Codeforces 是一個極具挑戰性的程式競賽平台。DeepSeek-V3.2-Speciale 的評分達到了 2701,這是一個令人咋舌的分數,與 Gemini-3.0-Pro 的 2708 分幾乎不分軒輊,遠遠甩開了 Claude-4.5-Sonnet (1480)。這意味著在解決複雜演算法問題時,它比大多數人類工程師都要強大。
Agent 能力的實戰表現: 雖然在 Agent 能力上,DeepSeek-V3.2-Thinking 尚未完全超越 Gemini-3.0-Pro,但在某些關鍵任務上表現亮眼。例如在 Terminal Bench 2.0(終端機操作測試)中,它取得了 46.4% 的準確率,顯著高於 GPT-5-High 的 35.2%。這顯示出其在實際操作電腦終端解決問題的能力上,具有極高的實用價值。
局限性與未來展望
當然,DeepSeek-V3.2 並非完美無缺。從數據中我們也能看到,在 HLE (Human Last Exam) 這種極高難度的綜合測試中,DeepSeek 雖然超越了 GPT-5,但距離 Gemini-3.0-Pro 仍有一段差距 (30.6% vs 37.7%)。這反映出模型在「世界知識的廣度」上仍受限於訓練數據的總量。
此外,Token 效率也是一個挑戰。為了達到上述的頂尖推理成績,DeepSeek-V3.2 往往需要生成更長的思考鏈(Thinking Process),這意味著更高的延遲和更多的運算成本。
未來,團隊計畫通過增加預訓練規模來彌補知識缺口,並致力於優化模型的「思考密度」,讓它能用更簡短的推理過程得出正確答案。
相關資源
對於想要親自測試或部署這些模型的開發者,DeepSeek 已經在 Hugging Face 上開源了相關資源:
- Hugging Face 模型庫: https://huggingface.co/deepseek-ai/DeepSeek-V3.2
常見問題解答 (FAQ)
Q1:DeepSeek-V3.2 的「稀疏注意力」(DSA) 到底解決了什麼問題? DSA 主要解決了長文本處理時「效率」與「性能」之間的矛盾。傳統注意力機制在處理長文時運算量過大,而 DSA 透過「閃電索引器」快速篩選出關鍵資訊,只對重要部分進行精細運算。這讓模型在處理長達 128K 的上下文時,既能保持極快的速度,又不會丟失關鍵細節。
Q2:DeepSeek-V3.2-Speciale 是什麼版本?普通用戶能用嗎? DeepSeek-V3.2-Speciale 是一個專注於極致推理能力的高運算版本。它在訓練時放寬了長度限制,並使用了更強化的強化學習策略。這個版本在數學和程式競賽(如 IMO, IOI)中拿下了金牌成績。目前它主要作為技術展示,證明了開源架構的潛力。
Q3:這個模型在使用工具(Agent)方面有什麼特別之處? DeepSeek-V3.2 特別優化了「思考」與「工具使用」的結合。它採用了一種特殊的上下文管理策略,確保模型在調用外部工具(如程式碼解釋器)時,仍能保留完整的推理脈絡。此外,團隊利用大規模合成數據進行訓練,讓模型在即使沒有大量人類示範的情況下,也能學會如何處理複雜的代理任務。
Q4:DeepSeek-V3.2 與 GPT-5 相比表現如何? 從上表的數據可以直接看出,在推理能力(Reasoning)方面,DeepSeek-V3.2-Speciale 已經在 AIME 2025 和 HMMT 2025 等多個項目中超越了 GPT-5-High。然而,在一般性的「世界知識」廣度上,由於訓練數據量的差異,可能仍略遜於最頂尖的閉源模型。
Q5:什麼是「冷啟動」(Cold-Start) 階段? 在訓練 Agent 能力時,初始數據往往不足。DeepSeek 團隊利用「冷啟動」策略,通過精心設計的提示詞(Prompts),引導原本只會純文字推理的模型開始嘗試使用工具。這樣生成的初步數據,雖然不完美,但為後續的大規模強化學習提供了基礎素材。


