Qwen3-Omni 橫空出世:終結多模態 AI 的妥協,一個模型搞定文字、圖像、聲音與影像!
DeepSeek AI 團隊聽取廣大使用者的回饋,由DeepSeek-V3.1隆重推出全新升級版 DeepSeek-V3.1-Terminus。新版本不僅修復了語言一致性問題,更大幅強化了 Code Agent 與 Search Agent 的能力,帶來更穩定、更強大的 AI 體驗。本文將帶您深入了解 Terminus 版本的亮點,並透過詳細的評測數據一探究竟。
你的回饋,我們聽見了:DeepSeek-V3.1-Terminus 的誕生
在 AI 技術快速迭代的今天,一個模型的好壞,不僅僅取決於冰冷的評測分數,更在於它是否能真正解決使用者的痛點。DeepSeek AI 團隊顯然深諳此道。最近,他們正式推出了 DeepSeek-V3.1-Terminus,這不單單是一個版本的更新,更像是一次與社群的深度對話。
坦白說,再強大的模型,如果輸出時中英文夾雜,或是偶爾冒出一些令人費解的異常字元,那種體驗真的會讓人有點出戲。這次 Terminus 版本的一個核心目標,就是解決這個問題,全面提升語言一致性。
除此之外,另一個重頭戲,就是 Agent 能力的再次進化。這裡說的 Agent,你可以把它想像成 AI 的「手」和「腳」,讓它不只能聊天,更能幫你執行複雜任務。Terminus 版本特別針對 Code Agent(寫程式的幫手)和 Search Agent(上網查資料的幫手)進行了深度優化,讓它們在實際應用中更加得心應手。
不只是說說而已:用數據看見 Terminus 的硬實力
空口無憑,效能的提升終究要靠數據說話。讓我們來看看 DeepSeek-V3.1-Terminus 在各大權威評測(Benchmark)中的表現究竟如何。
| Benchmark | DeepSeek-V3.1 | DeepSeek-V3.1-Terminus |
|---|---|---|
| 非 Agent (thinking 模式) | ||
| MMLU-Pro | 84.8 | 85.0 |
| GPQA-Diamond | 80.1 | 80.7 |
| Humanity’s Last Exam | 15.9 | 21.7 |
| LiveCodeBench | 74.8 | 74.9 |
| Codeforces | 2091 | 2046 |
| Aider-Polyglot | 76.3 | 76.1 |
| Agent | ||
| BrowseComp | 30.0 | 38.5 |
| BrowseComp-zh | 49.2 | 45.0 |
| SimpleQA | 93.4 | 96.8 |
| SWE Verified | 66.0 | 68.4 |
| SWE-bench Multilingual | 54.5 | 57.8 |
| Terminal-bench | 31.3 | 36.7 |
從上方的圖表可以清楚看到,這次的更新是全面性的。
非 Agent 測評(模型基礎能力)
在考驗模型基礎知識和推理能力的「非 Agent 測評」中,Terminus 版本維持了原有的高水準,並在部分項目上取得了突破。
- MMLU-Pro & GPQA-Diamond: 這兩項考驗的是模型的多任務語言理解和專業問答能力。
Terminus的分數從 84.8 微升至 85.0,從 80.1 提升到 80.7,顯示其基礎知識庫更加穩固。 - Humanity’s Last Exam: 這是一個極具挑戰性的測試,分數從 15.9 大幅躍升至 21.7!這意味著模型在處理極端複雜和刁鑽問題上的能力有了顯著的增強。
- LiveCodeBench & Codeforces: 在程式碼相關的測試中,分數基本持平,這也證明了新版本在優化的同時,並未犧牲其強大的程式碼生成能力。
Agent 測評(模型工具使用能力)
這部分才是本次更新的最大亮點!Agent 測評考驗的是模型使用外部工具(如瀏覽器、終端機)來完成任務的智慧。
- BrowseComp & SimpleQA: 在模擬真人瀏覽網頁和簡單問答的測試中,分數從 30.0 飆升至 38.5,93.4 提升至 96.8。這代表
Terminus的 Search Agent 變得更聰明,能更準確地理解指令並找到答案。 - SWE Verified & SWE-bench Multilingual: 軟體工程相關的測試也看到穩健的成長,證明其 Code Agent 的實力確實更上一層樓。
- Terminal-bench: 在模擬使用終端機命令列的測試中,分數從 31.3 提升到 36.7,這對於需要執行複雜系統操作的開發者來說,無疑是個好消息。
值得注意的是,官方提到 Search Agent 的工具集在新版本中進行了調整。想了解更詳細的技術細節,可以參考官方在 HuggingFace 上發布的文件。
馬上體驗!如何取得最新的 DeepSeek-V3.1-Terminus?
說了這麼多,你是不是也想立刻上手體驗看看?很簡單!DeepSeek 官方已經將所有平台的模型同步更新至 DeepSeek-V3.1-Terminus。
無論你習慣使用官方 App、網頁端,還是小程式,現在感受到的就是最新、最強大的版本。
對於開發者和研究人員,DeepSeek API 也已同步更新,你可以無縫接軌,在你的應用中享受 Terminus 帶來的穩定與強大。
當然,DeepSeek 作為開源社群的堅實夥伴,也第一時間提供了模型的下載位址:
- HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
- ModelScope: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
常見問題解答 (FAQ)
Q1: DeepSeek-V3.1-Terminus 和之前的版本有什麼不同?
Terminus 是 V3.1 的一個重要升級版。它主要針對使用者回饋的兩個痛點進行了優化:第一是語言一致性,大幅減少了中英文混用和異常字元的問題;第二是Agent 能力,讓模型在執行程式碼和搜尋任務時表現得更出色、更穩定。
Q2: 這次更新最大的亮點是什麼?
最大的亮點無疑是 Agent 效能的顯著提升。從評測數據來看,無論是模擬瀏覽網頁(BrowseComp)還是軟體工程任務(SWE Verified),Terminus 的表現都有了質的飛躍,這讓它在實際應用場景中變得更加實用。
Q3: 我需要付費才能使用這個新模型嗎?
不需要!你可以透過 DeepSeek 官方免費提供的 App、網頁端和小程式直接體驗。對於有更高需求的開發者,可以選擇使用 DeepSeek API(依用量計費),或是直接從 HuggingFace 或 ModelScope 下載開源模型進行部署。


