Qwen3-Omni 橫空出世：終結多模態 AI 的妥協，一個模型搞定文字、圖像、聲音與影像！

DeepSeek AI 團隊聽取廣大使用者的回饋，由DeepSeek-V3.1隆重推出全新升級版 DeepSeek-V3.1-Terminus。新版本不僅修復了語言一致性問題，更大幅強化了 Code Agent 與 Search Agent 的能力，帶來更穩定、更強大的 AI 體驗。本文將帶您深入了解 Terminus 版本的亮點，並透過詳細的評測數據一探究竟。

你的回饋，我們聽見了：DeepSeek-V3.1-Terminus 的誕生

在 AI 技術快速迭代的今天，一個模型的好壞，不僅僅取決於冰冷的評測分數，更在於它是否能真正解決使用者的痛點。DeepSeek AI 團隊顯然深諳此道。最近，他們正式推出了 DeepSeek-V3.1-Terminus，這不單單是一個版本的更新，更像是一次與社群的深度對話。

坦白說，再強大的模型，如果輸出時中英文夾雜，或是偶爾冒出一些令人費解的異常字元，那種體驗真的會讓人有點出戲。這次 Terminus 版本的一個核心目標，就是解決這個問題，全面提升語言一致性。

除此之外，另一個重頭戲，就是 Agent 能力的再次進化。這裡說的 Agent，你可以把它想像成 AI 的「手」和「腳」，讓它不只能聊天，更能幫你執行複雜任務。Terminus 版本特別針對 Code Agent（寫程式的幫手）和 Search Agent（上網查資料的幫手）進行了深度優化，讓它們在實際應用中更加得心應手。

不只是說說而已：用數據看見 Terminus 的硬實力

空口無憑，效能的提升終究要靠數據說話。讓我們來看看 DeepSeek-V3.1-Terminus 在各大權威評測（Benchmark）中的表現究竟如何。

Benchmark	DeepSeek-V3.1	DeepSeek-V3.1-Terminus
非 Agent (thinking 模式)
MMLU-Pro	84.8	85.0
GPQA-Diamond	80.1	80.7
Humanity’s Last Exam	15.9	21.7
LiveCodeBench	74.8	74.9
Codeforces	2091	2046
Aider-Polyglot	76.3	76.1
Agent
BrowseComp	30.0	38.5
BrowseComp-zh	49.2	45.0
SimpleQA	93.4	96.8
SWE Verified	66.0	68.4
SWE-bench Multilingual	54.5	57.8
Terminal-bench	31.3	36.7

從上方的圖表可以清楚看到，這次的更新是全面性的。

非 Agent 測評（模型基礎能力）

在考驗模型基礎知識和推理能力的「非 Agent 測評」中，Terminus 版本維持了原有的高水準，並在部分項目上取得了突破。

MMLU-Pro & GPQA-Diamond： 這兩項考驗的是模型的多任務語言理解和專業問答能力。Terminus 的分數從 84.8 微升至 85.0，從 80.1 提升到 80.7，顯示其基礎知識庫更加穩固。
Humanity’s Last Exam： 這是一個極具挑戰性的測試，分數從 15.9 大幅躍升至 21.7！這意味著模型在處理極端複雜和刁鑽問題上的能力有了顯著的增強。
LiveCodeBench & Codeforces： 在程式碼相關的測試中，分數基本持平，這也證明了新版本在優化的同時，並未犧牲其強大的程式碼生成能力。

Agent 測評（模型工具使用能力）

這部分才是本次更新的最大亮點！Agent 測評考驗的是模型使用外部工具（如瀏覽器、終端機）來完成任務的智慧。

BrowseComp & SimpleQA： 在模擬真人瀏覽網頁和簡單問答的測試中，分數從 30.0 飆升至 38.5，93.4 提升至 96.8。這代表 Terminus 的 Search Agent 變得更聰明，能更準確地理解指令並找到答案。
SWE Verified & SWE-bench Multilingual： 軟體工程相關的測試也看到穩健的成長，證明其 Code Agent 的實力確實更上一層樓。
Terminal-bench： 在模擬使用終端機命令列的測試中，分數從 31.3 提升到 36.7，這對於需要執行複雜系統操作的開發者來說，無疑是個好消息。

值得注意的是，官方提到 Search Agent 的工具集在新版本中進行了調整。想了解更詳細的技術細節，可以參考官方在 HuggingFace 上發布的文件。

馬上體驗！如何取得最新的 DeepSeek-V3.1-Terminus？

說了這麼多，你是不是也想立刻上手體驗看看？很簡單！DeepSeek 官方已經將所有平台的模型同步更新至 DeepSeek-V3.1-Terminus。

無論你習慣使用官方 App、網頁端，還是小程式，現在感受到的就是最新、最強大的版本。

對於開發者和研究人員，DeepSeek API 也已同步更新，你可以無縫接軌，在你的應用中享受 Terminus 帶來的穩定與強大。

當然，DeepSeek 作為開源社群的堅實夥伴，也第一時間提供了模型的下載位址：

HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
ModelScope: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus

常見問題解答 (FAQ)

Q1: DeepSeek-V3.1-Terminus 和之前的版本有什麼不同？

Terminus 是 V3.1 的一個重要升級版。它主要針對使用者回饋的兩個痛點進行了優化：第一是語言一致性，大幅減少了中英文混用和異常字元的問題；第二是Agent 能力，讓模型在執行程式碼和搜尋任務時表現得更出色、更穩定。

Q2: 這次更新最大的亮點是什麼？

最大的亮點無疑是 Agent 效能的顯著提升。從評測數據來看，無論是模擬瀏覽網頁（BrowseComp）還是軟體工程任務（SWE Verified），Terminus 的表現都有了質的飛躍，這讓它在實際應用場景中變得更加實用。

Q3: 我需要付費才能使用這個新模型嗎？

不需要！你可以透過 DeepSeek 官方免費提供的 App、網頁端和小程式直接體驗。對於有更高需求的開發者，可以選擇使用 DeepSeek API（依用量計費），或是直接從 HuggingFace 或 ModelScope 下載開源模型進行部署。

分享至:

Featured Partners

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

Recommended for You

D …

news

DeepSeek-V3.2-Exp 大揭秘：更高效、更經濟的長文本處理新選擇

AI 新創公司 DeepSeek 推出了最新的實驗性模型 DeepSeek-V3.2-Exp，其核心亮點在於引入了創新的「深度稀疏注意力機制 (DeepSeek Sparse Attention, DSA)」。這項技術旨在大幅提升處理長文本時的訓練與推理效率，同時維持與前代模型相當的頂尖性能。更令人振奮的是，伴隨新模型的發布，其 API 價格也大幅下調超過 50%，為開發者和企業用戶帶來了更具成本效益的 AI 解決方案。在人工智慧的快車道上，效率與成本始終是推動技術普及的兩大關鍵引擎。就在最近，備受矚目的 AI 公司 DeepSeek 投下了一顆震撼彈，正式發布並開源了其最新的實驗性大型語言模型——DeepSeek-V3.2-Exp。這不僅僅是一次常規的迭代更新，更是一次架構上的大膽探索，預示著下一代 AI 模型可能的發展方向。那麼，這個新模型究竟有何過人之處？簡單來說，它在處理「長文本」這類極度消耗運算資源的任務時，變得更快、也更便宜了。而這一切，都歸功於其背後的核心技術：深度稀疏注意力機制 (DeepSeek Sparse Attention, DSA)。什麼是深度稀疏注意力機制 (DSA)？為什麼它很重要？想像一下，當你在閱讀一篇萬字長文並試圖回答其中一個問題時，你會通讀全文，但大腦會自動聚焦在與問題最相關的幾個段落上，而不是逐字逐句地分析所有內容。傳統的 AI 注意力機制就像是一個過於認真的學生，它會讓模型中的每個詞都去關注文章裡的所有詞，這種「全面關注」在文本很短時沒問題，但一旦文本長度增加，運算量就會呈平方級增長，變得極其昂貴和緩慢。 DeepSeek 的 DSA 技術正是為了解決這個痛點而生。它為模型引入了一套智慧的篩選系統，主要包含兩個部分：閃電索引器 (Lightning Indexer)：這是一個輕量級的評分員（本身也是一個小型 Transformer 模型）。當模型處理一個詞（查詢 token）時，這個索引器會快速掃描前文所有的詞，並為它們的「相關性」打分。由於這個過程使用了高效的 FP8 格式和較少的計算單元，所以速度飛快。細粒度權杖選擇 (Fine-grained Token Selection)：根據索引器的評分，系統只會挑選出分數最高的 top-k（例如 2048）個詞，讓當前的詞只對這些最相關的「候選人」進行深度注意力計算。透過這種方式，DSA 成功地將運算複雜度從 $O(L²)$ 降低到 $O(Lk)$，其中 $L$ 是文本長度，$k$ 是被選中的少量關鍵詞。這意味著，即使文本長度達到 128K 甚至更長，模型也能保持高效運作，不會被龐大的計算量壓垮。性能不減，效率倍增通常，提升效率可能意味著犧牲性能。但 DeepSeek-V3.2-Exp 最令人稱道的一點，便是在引入 DSA 後，其在各大公開評測基準上的表現與前代強大的 V3.1-Terminus 模型幾乎持平。

Sep 30, 2025 Read →

A …

news

AI 學會自己思考？DeepSeek-R1 登上《自然》封面，揭示純強化學習的驚人潛力

人工智慧領域迎來重大突破！DeepSeek-R1 模型登上了頂尖科學期刊《自然》的封面，它不依賴人類標註資料，僅透過強化學習就發展出高超的推理能力，在數學和程式設計等領域甚至超越了人類。這項研究為我們揭示了一條通往更自主、更強大 AI 的全新路徑。 AI 圈的大新聞：當頂尖期刊為大型語言模型獻上封面你知道嗎？當一個研究成果登上《自然》（Nature）期刊的封面時，這意味著它不僅僅是一次小小的進步，而是一次可能改變整個領域遊戲規則的重大突破。最近，這個殊榮給了名為 DeepSeek-R1 的大型語言模型（LLM）。這件事之所以如此轟動，不僅因為它是第一個經過長達七個月、由八位外部專家嚴格同儕審查的主流大型語言模型，更重要的是它所代表的理念——AI 或許不再需要人類手把手地教導，也能學會如何「思考」。這篇文章將帶你深入了解，DeepSeek-R1 究竟做了什麼，它如何實現自我進化，以及這對人工智慧的未來意味著什麼。這不只是另一個 AI 模型，這是一次觀念的革新一直以來，訓練大型語言模型就像是教一個非常聰明的學生。我們首先給它閱讀海量的書籍和網路資料（這叫預訓練），讓它學會語言的基礎。然後，我們會找來許多人類老師，準備大量的「標準答案」來一題一題地教它（這叫監督式微調，SFT）。這種方法雖然有效，但有幾個天生的瓶頸：成本高昂：聘請大量專家來標註高品質的資料，既花錢又費時。天花板效應： AI 的表現很難超越教導它的人類老師。如果老師的答案不夠好，學生的水平自然也受限。潛在偏見：人類的思維模式和偏見，也會在教學過程中不知不覺地傳遞給 AI。然而，DeepSeek-R1 走了一條截然不同的路。研究團隊的核心想法是：能不能讓 AI 像我們學習新技能一樣，透過不斷的「嘗試與犯錯」來自我提升？這就是強化學習（Reinforcement Learning, RL）的核心精神。說白了，這就好比教 AI 下棋。我們不需要給它看幾百萬份棋譜，只需要告訴它遊戲規則和「獲勝」這個目標。然後，讓它自己去對弈，贏了就給獎勵，輸了就學習教訓。DeepSeek-R1 就是在數學、程式設計這些有明確「對錯」的領域，用這種方式學會了推理。 DeepSeek-R1 是如何「自我進化」的？這項研究的核心是一個名為 DeepSeek-R1-Zero 的純粹版模型。它的訓練過程相當迷人，完全拋棄了傳統的監督式微調。研究團隊使用了一種稱為「群體相對策略優化」（Group Relative Policy Optimization, GRPO）的強化學習演算法。他們給模型拋出複雜的數學題或程式設計挑戰，但不告訴它解題步驟。模型需要自行生成思考過程（放在 <think> 標籤裡）和最終答案（放在 <answer> 標籤裡）。唯一的獎勵訊號，就是判斷最終答案的正確性。神奇的事情發生了。在訓練過程中，模型自己發展出了一些令人驚訝的高級策略：自我反思與修正：模型在思考過程中，會出現類似「等等，這裡好像錯了」、「讓我再試一次」的念頭。研究人員發現，模型輸出中「wait」（等待）這個詞的出現頻率在訓練後期顯著增加，這簡直就是 AI 的「靈光一現」（Aha moment）。動態調整思考深度：遇到簡單問題時，它會用較短的思考鏈快速給出答案；而面對複雜難題時，它會生成長達數千個詞的詳細推理，一步步探索解決方案。非人類的路徑：因為不受人類思維的束縛，它有時會探索出一些更高效、但不符合人類直覺的解題路徑。當然，這個純粹的 DeepSeek-R1-Zero 模型雖然推理能力超群，但在與人互動時卻顯得有些「不修邊幅」，比如回答的可讀性較差，有時還會中英文夾雜。因此，團隊在此基礎上，透過多階段的學習框架（整合了少量的人類偏好資料），打造出更完善的 DeepSeek-R1 模型。它繼承了 Zero 版本的強大推理核心，同時也更符合人類的溝通習慣，變得更樂於助人且無害。成果驚人：在數學與程式領域超越人類空口無憑，DeepSeek-R1 的表現確實令人瞠目結舌。在一系列公認的困難基準測試中，它取得了頂尖的成績：

Sep 18, 2025 Read →

D …

tool

DeepSeek V3.1 重磅升級！128k 超長上下文，Hugging Face 同步開源！

深度探索（DeepSeek）正式將其線上模型升級至 V3.1 版本，最引人注目的亮點，便是將上下文長度一舉擴展至 128k。這不僅僅是一個數字上的飛躍，更意味著 AI 在處理複雜、長篇任務時的能力邊界被再次拓寬。更令人興奮的是，其基礎模型也已在 Hugging Face 上開源！本文將帶你深入了解這次更新的實際意義，以及它將如何改變我們的 AI 互動體驗。最近，AI 領域的技術競賽似乎從未停歇，而這一次，焦點落在了深度探索（DeepSeek）身上。他們悄悄地將旗下線上模型升級到了最新的 V3.1 版本，並帶來了一個足以讓許多開發者和重度使用者興奮不已的更新——上下文長度擴展至 128k。你可能會想，128k？這串數字到底代表什麼？別急，讓我們用更生活化的方式來聊聊。先聊聊「上下文長度」這回事，它重要嗎？當然重要！你可以把 AI 模型的「上下文長度」（Context Length）想像成它的「短期記憶」或「工作記憶」。當你和 AI 對話或要求它處理一份文件時，它需要將這些資訊全部記在腦子裡，才能理解你的完整意圖並給出準確的回應。這個「記憶」的容量是有限的。如果上下文長度太短，就像和一個記憶力不太好的人說話一樣，你剛說完前面幾句，他可能就忘了，導致對話牛頭不對馬嘴，或者在處理長文件時只能看到片段，無法掌握全貌。過去，許多模型可能只有 4k、8k 或 16k 的上下文長度，這在處理簡單問答時綽綽有餘，但面對稍微複雜的任務就顯得捉襟見肘了。那麼，128k 的「超大記憶」意味著什麼？從64k擴展到 128k，這不是量變，而是質變。一個擁有 128k 上下文長度的 AI，意味著它一次可以「記住」並處理大約 10 萬個漢字或單詞的內容。這帶來的好處是顯而易見的：能讀懂整本「書」了：你可以直接把一份幾十頁的市場分析報告、一篇長篇學術論文，甚至是一本中篇小說的完整章節丟給它，讓它進行總結、提問或改寫，而不用擔心它讀到後面忘了前面。對話更有連續性：在長時間的連續對話中，它能更好地記住你們之前討論過的所有細節，不會輕易「失憶」，讓整個互動過程更加流暢、智能。程式碼除錯的神隊友：對於開發者來說，這簡直是福音。你可以將整個複雜的程式碼庫或專案文件餵給它，讓它幫你找出 bug、理解程式邏輯或編寫新的功能模組。它能看到完整的程式碼脈絡，而不是零散的片段。更細膩的內容創作：無論是撰寫小說、劇本還是商業計劃書，128k 的上下文讓 AI 能夠在更宏大的故事框架下進行創作，確保角色設定的一致性和情節發展的連貫性。簡單來說，更大的上下文窗口，意味著 AI 從一個只能處理片段資訊的助手，進化成了一個能夠理解複雜、長篇背景的專家。如何體驗全新的 DeepSeek V3.1？這次的升級非常全面，DeepSeek 確保了所有使用者都能第一時間體驗到新模型的強大能力。無論你是普通用戶還是專業開發者，都可以透過以下管道無縫接軌：官方網頁官方 APP（iOS/Android）微信小程式 API 接口這意味著，無論你習慣在電腦前工作，還是在手機上隨手查詢，都能享受到 128k 上下文長度帶來的便利。特別是對於需要將 AI 功能整合到自己應用程式中的開發者，透過 API 就能直接調用 V3.1 模型，為自己的產品賦能。

Aug 20, 2025 Read →