DeepSeek V3.1 重磅升級！128k 超長上下文，Hugging Face 同步開源！

深度探索（DeepSeek）正式將其線上模型升級至 V3.1 版本，最引人注目的亮點，便是將上下文長度一舉擴展至 128k。這不僅僅是一個數字上的飛躍，更意味著 AI 在處理複雜、長篇任務時的能力邊界被再次拓寬。更令人興奮的是，其基礎模型也已在 Hugging Face 上開源！本文將帶你深入了解這次更新的實際意義，以及它將如何改變我們的 AI 互動體驗。

最近，AI 領域的技術競賽似乎從未停歇，而這一次，焦點落在了深度探索（DeepSeek）身上。他們悄悄地將旗下線上模型升級到了最新的 V3.1 版本，並帶來了一個足以讓許多開發者和重度使用者興奮不已的更新——上下文長度擴展至 128k。

你可能會想，128k？這串數字到底代表什麼？別急，讓我們用更生活化的方式來聊聊。

先聊聊「上下文長度」這回事，它重要嗎？

當然重要！你可以把 AI 模型的「上下文長度」（Context Length）想像成它的「短期記憶」或「工作記憶」。當你和 AI 對話或要求它處理一份文件時，它需要將這些資訊全部記在腦子裡，才能理解你的完整意圖並給出準確的回應。

這個「記憶」的容量是有限的。如果上下文長度太短，就像和一個記憶力不太好的人說話一樣，你剛說完前面幾句，他可能就忘了，導致對話牛頭不對馬嘴，或者在處理長文件時只能看到片段，無法掌握全貌。

過去，許多模型可能只有 4k、8k 或 16k 的上下文長度，這在處理簡單問答時綽綽有餘，但面對稍微複雜的任務就顯得捉襟見肘了。

那麼，128k 的「超大記憶」意味著什麼？

從64k擴展到 128k，這不是量變，而是質變。一個擁有 128k 上下文長度的 AI，意味著它一次可以「記住」並處理大約 10 萬個漢字或單詞的內容。這帶來的好處是顯而易見的：

能讀懂整本「書」了： 你可以直接把一份幾十頁的市場分析報告、一篇長篇學術論文，甚至是一本中篇小說的完整章節丟給它，讓它進行總結、提問或改寫，而不用擔心它讀到後面忘了前面。
對話更有連續性： 在長時間的連續對話中，它能更好地記住你們之前討論過的所有細節，不會輕易「失憶」，讓整個互動過程更加流暢、智能。
程式碼除錯的神隊友： 對於開發者來說，這簡直是福音。你可以將整個複雜的程式碼庫或專案文件餵給它，讓它幫你找出 bug、理解程式邏輯或編寫新的功能模組。它能看到完整的程式碼脈絡，而不是零散的片段。
更細膩的內容創作： 無論是撰寫小說、劇本還是商業計劃書，128k 的上下文讓 AI 能夠在更宏大的故事框架下進行創作，確保角色設定的一致性和情節發展的連貫性。

簡單來說，更大的上下文窗口，意味著 AI 從一個只能處理片段資訊的助手，進化成了一個能夠理解複雜、長篇背景的專家。

如何體驗全新的 DeepSeek V3.1？

這次的升級非常全面，DeepSeek 確保了所有使用者都能第一時間體驗到新模型的強大能力。無論你是普通用戶還是專業開發者，都可以透過以下管道無縫接軌：

官方網頁
官方 APP（iOS/Android）
微信小程式
API 接口

這意味著，無論你習慣在電腦前工作，還是在手機上隨手查詢，都能享受到 128k 上下文長度帶來的便利。特別是對於需要將 AI 功能整合到自己應用程式中的開發者，透過 API 就能直接調用 V3.1 模型，為自己的產品賦能。

開發者的福音：Hugging Face 上的基礎模型

除了提供即開即用的線上服務，DeepSeek 也沒有忘記廣大的開發者和開源社群。他們非常慷慨地將 DeepSeek V3.1 的基礎模型（Base Model） 發布在了 Hugging Face 上。

這代表什麼呢？

這意味著，如果你是研究人員、開發者或 AI 愛好者，你可以直接下載這個基礎模型，在自己的環境中進行研究、實驗，或者根據特定需求進行微調（Fine-tuning），打造出專屬於你的客製化 AI 應用。

與線上版本不同，基礎模型給了你最大的自由度和控制權。對於想要深入了解模型內部運作或是有特殊應用場景的開發者來說，這無疑是個巨大的寶藏。

模型連結在這裡： DeepSeek-V3.1-Base on Hugging Face

這次升級，在 AI 浪潮中處於什麼位置？

擴展上下文長度是當前頂尖大型語言模型發展的一個重要趨勢。從 OpenAI 的 GPT-5 到 Google 的 Gemini，再到 Anthropic 的 Claude，各大模型都在不斷挑戰記憶的極限。

DeepSeek 這次將 128k 上下文作為線上模型的標配，並同步開源其基礎模型，無疑是向市場宣告了其強大的技術實力與開放的態度。這不僅讓自己在激烈的競爭中佔據了有利位置，也為整個 AI 生態的發展做出了貢獻。

對於使用者而言，這也是個好消息——更多的選擇意味著更快的技術迭代和更普惠的價格。

總而言之，DeepSeek V3.1 的發布，不僅僅是一次常規的版本更新。它透過極大擴展模型的記憶容量，並擁抱開源社群，為我們展示了 AI 在理解和處理複雜資訊方面的巨大潛力。如果你還沒試過，不妨現在就去體驗一下，看看這個擁有「超大記憶」的 AI 助手，能為你的工作和生活帶來怎樣的驚喜。

由於目前只釋出模型並沒有描述，若日後有更新會再次更新此文章

分享至:

Featured Partners

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

Recommended for You

D …

news

DeepSeek-V3.2-Exp 大揭秘：更高效、更經濟的長文本處理新選擇

AI 新創公司 DeepSeek 推出了最新的實驗性模型 DeepSeek-V3.2-Exp，其核心亮點在於引入了創新的「深度稀疏注意力機制 (DeepSeek Sparse Attention, DSA)」。這項技術旨在大幅提升處理長文本時的訓練與推理效率，同時維持與前代模型相當的頂尖性能。更令人振奮的是，伴隨新模型的發布，其 API 價格也大幅下調超過 50%，為開發者和企業用戶帶來了更具成本效益的 AI 解決方案。在人工智慧的快車道上，效率與成本始終是推動技術普及的兩大關鍵引擎。就在最近，備受矚目的 AI 公司 DeepSeek 投下了一顆震撼彈，正式發布並開源了其最新的實驗性大型語言模型——DeepSeek-V3.2-Exp。這不僅僅是一次常規的迭代更新，更是一次架構上的大膽探索，預示著下一代 AI 模型可能的發展方向。那麼，這個新模型究竟有何過人之處？簡單來說，它在處理「長文本」這類極度消耗運算資源的任務時，變得更快、也更便宜了。而這一切，都歸功於其背後的核心技術：深度稀疏注意力機制 (DeepSeek Sparse Attention, DSA)。什麼是深度稀疏注意力機制 (DSA)？為什麼它很重要？想像一下，當你在閱讀一篇萬字長文並試圖回答其中一個問題時，你會通讀全文，但大腦會自動聚焦在與問題最相關的幾個段落上，而不是逐字逐句地分析所有內容。傳統的 AI 注意力機制就像是一個過於認真的學生，它會讓模型中的每個詞都去關注文章裡的所有詞，這種「全面關注」在文本很短時沒問題，但一旦文本長度增加，運算量就會呈平方級增長，變得極其昂貴和緩慢。 DeepSeek 的 DSA 技術正是為了解決這個痛點而生。它為模型引入了一套智慧的篩選系統，主要包含兩個部分：閃電索引器 (Lightning Indexer)：這是一個輕量級的評分員（本身也是一個小型 Transformer 模型）。當模型處理一個詞（查詢 token）時，這個索引器會快速掃描前文所有的詞，並為它們的「相關性」打分。由於這個過程使用了高效的 FP8 格式和較少的計算單元，所以速度飛快。細粒度權杖選擇 (Fine-grained Token Selection)：根據索引器的評分，系統只會挑選出分數最高的 top-k（例如 2048）個詞，讓當前的詞只對這些最相關的「候選人」進行深度注意力計算。透過這種方式，DSA 成功地將運算複雜度從 $O(L²)$ 降低到 $O(Lk)$，其中 $L$ 是文本長度，$k$ 是被選中的少量關鍵詞。這意味著，即使文本長度達到 128K 甚至更長，模型也能保持高效運作，不會被龐大的計算量壓垮。性能不減，效率倍增通常，提升效率可能意味著犧牲性能。但 DeepSeek-V3.2-Exp 最令人稱道的一點，便是在引入 DSA 後，其在各大公開評測基準上的表現與前代強大的 V3.1-Terminus 模型幾乎持平。

Sep 30, 2025 Read →

Q …

news

Qwen3-Omni 橫空出世：終結多模態 AI 的妥協，一個模型搞定文字、圖像、聲音與影像！

DeepSeek AI 團隊聽取廣大使用者的回饋，由DeepSeek-V3.1隆重推出全新升級版 DeepSeek-V3.1-Terminus。新版本不僅修復了語言一致性問題，更大幅強化了 Code Agent 與 Search Agent 的能力，帶來更穩定、更強大的 AI 體驗。本文將帶您深入了解 Terminus 版本的亮點，並透過詳細的評測數據一探究竟。你的回饋，我們聽見了：DeepSeek-V3.1-Terminus 的誕生在 AI 技術快速迭代的今天，一個模型的好壞，不僅僅取決於冰冷的評測分數，更在於它是否能真正解決使用者的痛點。DeepSeek AI 團隊顯然深諳此道。最近，他們正式推出了 DeepSeek-V3.1-Terminus，這不單單是一個版本的更新，更像是一次與社群的深度對話。坦白說，再強大的模型，如果輸出時中英文夾雜，或是偶爾冒出一些令人費解的異常字元，那種體驗真的會讓人有點出戲。這次 Terminus 版本的一個核心目標，就是解決這個問題，全面提升語言一致性。除此之外，另一個重頭戲，就是 Agent 能力的再次進化。這裡說的 Agent，你可以把它想像成 AI 的「手」和「腳」，讓它不只能聊天，更能幫你執行複雜任務。Terminus 版本特別針對 Code Agent（寫程式的幫手）和 Search Agent（上網查資料的幫手）進行了深度優化，讓它們在實際應用中更加得心應手。不只是說說而已：用數據看見 Terminus 的硬實力空口無憑，效能的提升終究要靠數據說話。讓我們來看看 DeepSeek-V3.1-Terminus 在各大權威評測（Benchmark）中的表現究竟如何。 Benchmark DeepSeek-V3.1 DeepSeek-V3.1-Terminus 非 Agent (thinking 模式) MMLU-Pro 84.8 85.0 GPQA-Diamond 80.1 80.7 Humanity’s Last Exam 15.9 21.7 LiveCodeBench 74.8 74.9 Codeforces 2091 2046 Aider-Polyglot 76.3 76.1 Agent BrowseComp 30.0 38.5 BrowseComp-zh 49.2 45.0 SimpleQA 93.4 96.8 SWE Verified 66.0 68.4 SWE-bench Multilingual 54.5 57.8 Terminal-bench 31.3 36.7 從上方的圖表可以清楚看到，這次的更新是全面性的。

Sep 23, 2025 Read →

A …

news

AI 學會自己思考？DeepSeek-R1 登上《自然》封面，揭示純強化學習的驚人潛力

人工智慧領域迎來重大突破！DeepSeek-R1 模型登上了頂尖科學期刊《自然》的封面，它不依賴人類標註資料，僅透過強化學習就發展出高超的推理能力，在數學和程式設計等領域甚至超越了人類。這項研究為我們揭示了一條通往更自主、更強大 AI 的全新路徑。 AI 圈的大新聞：當頂尖期刊為大型語言模型獻上封面你知道嗎？當一個研究成果登上《自然》（Nature）期刊的封面時，這意味著它不僅僅是一次小小的進步，而是一次可能改變整個領域遊戲規則的重大突破。最近，這個殊榮給了名為 DeepSeek-R1 的大型語言模型（LLM）。這件事之所以如此轟動，不僅因為它是第一個經過長達七個月、由八位外部專家嚴格同儕審查的主流大型語言模型，更重要的是它所代表的理念——AI 或許不再需要人類手把手地教導，也能學會如何「思考」。這篇文章將帶你深入了解，DeepSeek-R1 究竟做了什麼，它如何實現自我進化，以及這對人工智慧的未來意味著什麼。這不只是另一個 AI 模型，這是一次觀念的革新一直以來，訓練大型語言模型就像是教一個非常聰明的學生。我們首先給它閱讀海量的書籍和網路資料（這叫預訓練），讓它學會語言的基礎。然後，我們會找來許多人類老師，準備大量的「標準答案」來一題一題地教它（這叫監督式微調，SFT）。這種方法雖然有效，但有幾個天生的瓶頸：成本高昂：聘請大量專家來標註高品質的資料，既花錢又費時。天花板效應： AI 的表現很難超越教導它的人類老師。如果老師的答案不夠好，學生的水平自然也受限。潛在偏見：人類的思維模式和偏見，也會在教學過程中不知不覺地傳遞給 AI。然而，DeepSeek-R1 走了一條截然不同的路。研究團隊的核心想法是：能不能讓 AI 像我們學習新技能一樣，透過不斷的「嘗試與犯錯」來自我提升？這就是強化學習（Reinforcement Learning, RL）的核心精神。說白了，這就好比教 AI 下棋。我們不需要給它看幾百萬份棋譜，只需要告訴它遊戲規則和「獲勝」這個目標。然後，讓它自己去對弈，贏了就給獎勵，輸了就學習教訓。DeepSeek-R1 就是在數學、程式設計這些有明確「對錯」的領域，用這種方式學會了推理。 DeepSeek-R1 是如何「自我進化」的？這項研究的核心是一個名為 DeepSeek-R1-Zero 的純粹版模型。它的訓練過程相當迷人，完全拋棄了傳統的監督式微調。研究團隊使用了一種稱為「群體相對策略優化」（Group Relative Policy Optimization, GRPO）的強化學習演算法。他們給模型拋出複雜的數學題或程式設計挑戰，但不告訴它解題步驟。模型需要自行生成思考過程（放在 <think> 標籤裡）和最終答案（放在 <answer> 標籤裡）。唯一的獎勵訊號，就是判斷最終答案的正確性。神奇的事情發生了。在訓練過程中，模型自己發展出了一些令人驚訝的高級策略：自我反思與修正：模型在思考過程中，會出現類似「等等，這裡好像錯了」、「讓我再試一次」的念頭。研究人員發現，模型輸出中「wait」（等待）這個詞的出現頻率在訓練後期顯著增加，這簡直就是 AI 的「靈光一現」（Aha moment）。動態調整思考深度：遇到簡單問題時，它會用較短的思考鏈快速給出答案；而面對複雜難題時，它會生成長達數千個詞的詳細推理，一步步探索解決方案。非人類的路徑：因為不受人類思維的束縛，它有時會探索出一些更高效、但不符合人類直覺的解題路徑。當然，這個純粹的 DeepSeek-R1-Zero 模型雖然推理能力超群，但在與人互動時卻顯得有些「不修邊幅」，比如回答的可讀性較差，有時還會中英文夾雜。因此，團隊在此基礎上，透過多階段的學習框架（整合了少量的人類偏好資料），打造出更完善的 DeepSeek-R1 模型。它繼承了 Zero 版本的強大推理核心，同時也更符合人類的溝通習慣，變得更樂於助人且無害。成果驚人：在數學與程式領域超越人類空口無憑，DeepSeek-R1 的表現確實令人瞠目結舌。在一系列公認的困難基準測試中，它取得了頂尖的成績：

Sep 18, 2025 Read →