tool

DeepSeek-V3.2 深度解析:開源模型如何以「稀疏注意力」與強化學習挑戰 GPT-5

December 2, 2025
Updated Dec 2
2 min read

DeepSeek-V3.2 的發布標誌著開源語言模型的一次重大技術飛躍。透過創新的 DeepSeek 稀疏注意力(DSA)機制與大規模強化學習框架,該模型不僅大幅提升了運算效率,更在數學與程式設計領域展現出媲美甚至超越 GPT-5 與 Gemini-3.0-Pro 的實力。本文將詳細拆解 DeepSeek-V3.2 的核心架構、Agent 代理能力,並透過最新的基準測試數據,分析其在國際競賽中奪金的背後技術。


在過去幾個月裡,人工智慧領域出現了一個有趣的現象。雖然開源社群持續在進步,但在處理複雜任務時,開源模型與閉源專有模型(如 OpenAI 或 Google 的頂尖模型)之間的差距似乎正在擴大。許多人不禁要問:開源模型是否已經觸到了天花板?

DeepSeek-V3.2 的出現,似乎就是為了回答這個問題。

這不僅僅是另一個版本的更新,而是一次針對目前開源模型「痛點」的精準打擊。DeepSeek 團隊發現,現有的模型在處理長文本時效率低落,且在後訓練階段(Post-Training)的運算資源投入不足。為了解決這些問題,DeepSeek-V3.2 引入了幾項關鍵技術,試圖在效率與推理能力之間找到完美的平衡點。

本文將帶您深入了解這個新架構是如何運作的,以及它為何能在國際奧林匹亞競賽中拿下金牌。

核心架構突破:DeepSeek 稀疏注意力 (DSA)

要理解 DeepSeek-V3.2 的強大之處,我們得先聊聊它的「心臟」——注意力機制。傳統的 Transformer 模型依賴所謂的「標準注意力」(Vanilla Attention),這就像是閱讀一本書時,強迫自己必須記住每一個字與其他所有字的關聯。當書本變厚(上下文變長)時,這種方法的運算量會呈指數級暴增,導致效率極低。

DeepSeek-V3.2 引入了 DeepSeek 稀疏注意力(DeepSeek Sparse Attention, DSA)。這個機制的核心理念非常簡單:只關注重要的資訊。

閃電索引器 (Lightning Indexer)

DSA 的第一步是透過一個稱為「閃電索引器」的組件來運作。這可以想像成圖書館的分類索引系統。當模型需要處理一個查詢(Query Token)時,它不會直接去翻閱所有的資料,而是先通過這個輕量級的索引器,快速掃描並計算出哪些部分的資訊是相關的。

這個索引器使用了 ReLU 激活函數,並且可以在 FP8(低精度浮點數)下運行,這意味著它的速度非常快,幾乎不會增加額外的運算負擔。

精細化 Token 選擇機制 (Fine-Grained Token Selection)

在索引器完成了初步篩選後,DSA 會進入第二階段。系統會根據索引分數,只檢索那些分數最高的「關鍵值」(Key-Value entries)。

這就像是你通過目錄找到了特定的章節,然後只仔細閱讀那幾頁內容。透過這種方式,DeepSeek-V3.2 成功將核心注意力的複雜度大幅降低。這不僅解決了長文本處理的效率瓶頸,更重要的是,它在提升速度的同時,並沒有犧牲模型的表現。在實際測試中,這種稀疏化的處理方式在長文本任務上依然保持了極高的精準度。

強化學習框架:從追趕到超越

除了架構上的優化,DeepSeek-V3.2 在「大腦」訓練上也採取了激進的策略。過去開源模型往往在預訓練(Pre-training)階段投入巨大,但在後訓練(Post-training)階段則相對保守。

DeepSeek 團隊打破了這個慣例。

可擴展的 RL 協議

DeepSeek-V3.2 採用了一種穩定且可擴展的強化學習(RL)協議。這套框架允許模型在後訓練階段消耗大量的運算資源——其預算甚至超過了預訓練成本的 10%。

這聽起來可能很抽象,但其結果非常具體:透過這種高強度的強化學習,模型在處理複雜邏輯、數學證明和程式碼生成時的能力得到了質的飛躍。它採用了 GRPO (Group Relative Policy Optimization) 算法,並結合了無偏見的 KL 估計(Unbiased KL Estimate),確保了訓練過程的穩定性,避免了模型在學習過程中「走火入魔」或產生崩潰。

DeepSeek-V3.2-Speciale:專為推理而生

為了探究模型推理能力的極限,團隊還訓練了一個名為 DeepSeek-V3.2-Speciale 的高運算版本。這個版本是為了「炫技」而存在的,它放寬了長度限制,專注於極致的推理表現。

結果令人驚艷。在 2025 年的國際數學奧林匹亞(IMO)和國際資訊奧林匹亞(IOI)中,DeepSeek-V3.2-Speciale 均達到了金牌水平。這證明了只要給予足夠的「思考時間」和運算資源,開源架構完全有能力挑戰最頂尖的專有模型。

讓模型學會使用工具:Agent 能力的進化

光會解數學題還不夠,真正的 AI 助手需要能夠使用工具(如搜尋引擎、程式碼解釋器)來解決現實世界的問題。這就是所謂的 Agentic Capabilities(代理能力)。

解決「思考」與「行動」的衝突

過去的模型常遇到一個問題:當它開始調用工具(例如寫一段 Python 程式碼來計算)時,它往往會丟失之前的「思考脈絡」。DeepSeek-V3.2 引入了一種新的上下文管理機制。

簡單來說,當模型在進行多輪工具調用時,系統會保留它的推理過程,直到用戶輸入新的訊息為止。這確保了模型在執行複雜任務時,不會因為切換到「工具模式」而忘記了它原本的解題思路。

大規模任務合成 (Large-Scale Task Synthesis)

訓練一個好的 Agent 需要大量的數據,但真實世界的高品質互動數據很難取得。DeepSeek 的解決方案是:自己製造數據

團隊開發了一套合成流水線,生成了超過 1,800 個不同的虛擬環境和 85,000 個複雜提示(Prompts)。這些任務涵蓋了從程式碼修復、網路搜尋到一般性的日常規劃。透過讓模型在這些合成環境中反覆練習,DeepSeek-V3.2 學會了如何在各種陌生情境下靈活運用工具,大幅提升了其泛化能力。

性能評測:數據會說話

說了這麼多技術細節,大家最關心的還是:它到底有多強?數字通常比文字更誠實。我們整理了 DeepSeek-V3.2 與目前市面上最強大的閉源模型(GPT-5-High、Gemini-3.0-Pro、Claude-4.5-Sonnet)的對比數據。

從下表可以看出,DeepSeek-V3.2 在多個領域已經不只是「追趕」,而是實現了「超越」。

模型基準測試比較 (Model Benchmark Comparison)

類別 (Category)基準測試 (Benchmark)DeepSeek-V3.2-SpecialeDeepSeek-V3.2-ThinkingGPT-5-HighClaude-4.5-SonnetGemini-3.0-Pro
Reasoning CapabilitiesAIME 2025 (Pass@1 %)96.093.194.687.095.0
(推理能力)HMMT 2025 (Pass@1 %)99.290.288.379.297.5
HLE (Pass@1 %)30.625.126.313.737.7
Codeforces (Rating)27012386253714802708
Agentic CapabilitiesSWE Verified (Resolved %)N/A73.174.967.276.2
(代理能力)Terminal Bench 2.0 (Acc %)N/A46.435.242.854.2
$\tau^2$ Bench (Pass@1 %)N/A80.380.284.785.4
Tool Decathlon (Pass@1 %)N/A35.229.038.636.4

注意:

  • 粗體數字表示該項目中的最高分。
  • DeepSeek-V3.2-Speciale 專注於純推理任務,因此未列出其 Agentic Capabilities 數據。

數據深度解讀

  1. 數學與邏輯的統治力: 在 AIME 2025(美國數學邀請賽)中,DeepSeek-V3.2-Speciale 取得了 96.0% 的驚人成績,這不僅擊敗了 GPT-5-High (94.6%),甚至險勝了 Google 的 Gemini-3.0-Pro (95.0%)。而在 HMMT 2025 中,它更是以 99.2% 的準確率傲視群雄。這證明了在純邏輯推理領域,開源模型已經站上了世界之巔。

  2. 程式設計的宗師級表現: Codeforces 是一個極具挑戰性的程式競賽平台。DeepSeek-V3.2-Speciale 的評分達到了 2701,這是一個令人咋舌的分數,與 Gemini-3.0-Pro 的 2708 分幾乎不分軒輊,遠遠甩開了 Claude-4.5-Sonnet (1480)。這意味著在解決複雜演算法問題時,它比大多數人類工程師都要強大。

  3. Agent 能力的實戰表現: 雖然在 Agent 能力上,DeepSeek-V3.2-Thinking 尚未完全超越 Gemini-3.0-Pro,但在某些關鍵任務上表現亮眼。例如在 Terminal Bench 2.0(終端機操作測試)中,它取得了 46.4% 的準確率,顯著高於 GPT-5-High 的 35.2%。這顯示出其在實際操作電腦終端解決問題的能力上,具有極高的實用價值。

局限性與未來展望

當然,DeepSeek-V3.2 並非完美無缺。從數據中我們也能看到,在 HLE (Human Last Exam) 這種極高難度的綜合測試中,DeepSeek 雖然超越了 GPT-5,但距離 Gemini-3.0-Pro 仍有一段差距 (30.6% vs 37.7%)。這反映出模型在「世界知識的廣度」上仍受限於訓練數據的總量。

此外,Token 效率也是一個挑戰。為了達到上述的頂尖推理成績,DeepSeek-V3.2 往往需要生成更長的思考鏈(Thinking Process),這意味著更高的延遲和更多的運算成本。

未來,團隊計畫通過增加預訓練規模來彌補知識缺口,並致力於優化模型的「思考密度」,讓它能用更簡短的推理過程得出正確答案。

相關資源

對於想要親自測試或部署這些模型的開發者,DeepSeek 已經在 Hugging Face 上開源了相關資源:

常見問題解答 (FAQ)

Q1:DeepSeek-V3.2 的「稀疏注意力」(DSA) 到底解決了什麼問題? DSA 主要解決了長文本處理時「效率」與「性能」之間的矛盾。傳統注意力機制在處理長文時運算量過大,而 DSA 透過「閃電索引器」快速篩選出關鍵資訊,只對重要部分進行精細運算。這讓模型在處理長達 128K 的上下文時,既能保持極快的速度,又不會丟失關鍵細節。

Q2:DeepSeek-V3.2-Speciale 是什麼版本?普通用戶能用嗎? DeepSeek-V3.2-Speciale 是一個專注於極致推理能力的高運算版本。它在訓練時放寬了長度限制,並使用了更強化的強化學習策略。這個版本在數學和程式競賽(如 IMO, IOI)中拿下了金牌成績。目前它主要作為技術展示,證明了開源架構的潛力。

Q3:這個模型在使用工具(Agent)方面有什麼特別之處? DeepSeek-V3.2 特別優化了「思考」與「工具使用」的結合。它採用了一種特殊的上下文管理策略,確保模型在調用外部工具(如程式碼解釋器)時,仍能保留完整的推理脈絡。此外,團隊利用大規模合成數據進行訓練,讓模型在即使沒有大量人類示範的情況下,也能學會如何處理複雜的代理任務。

Q4:DeepSeek-V3.2 與 GPT-5 相比表現如何? 從上表的數據可以直接看出,在推理能力(Reasoning)方面,DeepSeek-V3.2-Speciale 已經在 AIME 2025 和 HMMT 2025 等多個項目中超越了 GPT-5-High。然而,在一般性的「世界知識」廣度上,由於訓練數據量的差異,可能仍略遜於最頂尖的閉源模型。

Q5:什麼是「冷啟動」(Cold-Start) 階段? 在訓練 Agent 能力時,初始數據往往不足。DeepSeek 團隊利用「冷啟動」策略,通過精心設計的提示詞(Prompts),引導原本只會純文字推理的模型開始嘗試使用工具。這樣生成的初步數據,雖然不完美,但為後續的大規模強化學習提供了基礎素材。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.