Qwen3-Omni 橫空出世:終結多模態 AI 的妥協,一個模型搞定文字、圖像、聲音與影像!

DeepSeek AI 團隊聽取廣大使用者的回饋,由DeepSeek-V3.1隆重推出全新升級版 DeepSeek-V3.1-Terminus。新版本不僅修復了語言一致性問題,更大幅強化了 Code Agent 與 Search Agent 的能力,帶來更穩定、更強大的 AI 體驗。本文將帶您深入了解 Terminus 版本的亮點,並透過詳細的評測數據一探究竟。


你的回饋,我們聽見了:DeepSeek-V3.1-Terminus 的誕生

在 AI 技術快速迭代的今天,一個模型的好壞,不僅僅取決於冰冷的評測分數,更在於它是否能真正解決使用者的痛點。DeepSeek AI 團隊顯然深諳此道。最近,他們正式推出了 DeepSeek-V3.1-Terminus,這不單單是一個版本的更新,更像是一次與社群的深度對話。

坦白說,再強大的模型,如果輸出時中英文夾雜,或是偶爾冒出一些令人費解的異常字元,那種體驗真的會讓人有點出戲。這次 Terminus 版本的一個核心目標,就是解決這個問題,全面提升語言一致性

除此之外,另一個重頭戲,就是 Agent 能力的再次進化。這裡說的 Agent,你可以把它想像成 AI 的「手」和「腳」,讓它不只能聊天,更能幫你執行複雜任務。Terminus 版本特別針對 Code Agent(寫程式的幫手)和 Search Agent(上網查資料的幫手)進行了深度優化,讓它們在實際應用中更加得心應手。

不只是說說而已:用數據看見 Terminus 的硬實力

空口無憑,效能的提升終究要靠數據說話。讓我們來看看 DeepSeek-V3.1-Terminus 在各大權威評測(Benchmark)中的表現究竟如何。

BenchmarkDeepSeek-V3.1DeepSeek-V3.1-Terminus
非 Agent (thinking 模式)
MMLU-Pro84.885.0
GPQA-Diamond80.180.7
Humanity’s Last Exam15.921.7
LiveCodeBench74.874.9
Codeforces20912046
Aider-Polyglot76.376.1
Agent
BrowseComp30.038.5
BrowseComp-zh49.245.0
SimpleQA93.496.8
SWE Verified66.068.4
SWE-bench Multilingual54.557.8
Terminal-bench31.336.7

從上方的圖表可以清楚看到,這次的更新是全面性的。

非 Agent 測評(模型基礎能力)

在考驗模型基礎知識和推理能力的「非 Agent 測評」中,Terminus 版本維持了原有的高水準,並在部分項目上取得了突破。

  • MMLU-Pro & GPQA-Diamond: 這兩項考驗的是模型的多任務語言理解和專業問答能力。Terminus 的分數從 84.8 微升至 85.0,從 80.1 提升到 80.7,顯示其基礎知識庫更加穩固。
  • Humanity’s Last Exam: 這是一個極具挑戰性的測試,分數從 15.9 大幅躍升至 21.7!這意味著模型在處理極端複雜和刁鑽問題上的能力有了顯著的增強。
  • LiveCodeBench & Codeforces: 在程式碼相關的測試中,分數基本持平,這也證明了新版本在優化的同時,並未犧牲其強大的程式碼生成能力。

Agent 測評(模型工具使用能力)

這部分才是本次更新的最大亮點!Agent 測評考驗的是模型使用外部工具(如瀏覽器、終端機)來完成任務的智慧。

  • BrowseComp & SimpleQA: 在模擬真人瀏覽網頁和簡單問答的測試中,分數從 30.0 飆升至 38.5,93.4 提升至 96.8。這代表 Terminus 的 Search Agent 變得更聰明,能更準確地理解指令並找到答案。
  • SWE Verified & SWE-bench Multilingual: 軟體工程相關的測試也看到穩健的成長,證明其 Code Agent 的實力確實更上一層樓。
  • Terminal-bench: 在模擬使用終端機命令列的測試中,分數從 31.3 提升到 36.7,這對於需要執行複雜系統操作的開發者來說,無疑是個好消息。

值得注意的是,官方提到 Search Agent 的工具集在新版本中進行了調整。想了解更詳細的技術細節,可以參考官方在 HuggingFace 上發布的文件。

馬上體驗!如何取得最新的 DeepSeek-V3.1-Terminus?

說了這麼多,你是不是也想立刻上手體驗看看?很簡單!DeepSeek 官方已經將所有平台的模型同步更新至 DeepSeek-V3.1-Terminus

無論你習慣使用官方 App、網頁端,還是小程式,現在感受到的就是最新、最強大的版本。

對於開發者和研究人員,DeepSeek API 也已同步更新,你可以無縫接軌,在你的應用中享受 Terminus 帶來的穩定與強大。

當然,DeepSeek 作為開源社群的堅實夥伴,也第一時間提供了模型的下載位址:


常見問題解答 (FAQ)

Q1: DeepSeek-V3.1-Terminus 和之前的版本有什麼不同?

Terminus 是 V3.1 的一個重要升級版。它主要針對使用者回饋的兩個痛點進行了優化:第一是語言一致性,大幅減少了中英文混用和異常字元的問題;第二是Agent 能力,讓模型在執行程式碼和搜尋任務時表現得更出色、更穩定。

Q2: 這次更新最大的亮點是什麼?

最大的亮點無疑是 Agent 效能的顯著提升。從評測數據來看,無論是模擬瀏覽網頁(BrowseComp)還是軟體工程任務(SWE Verified),Terminus 的表現都有了質的飛躍,這讓它在實際應用場景中變得更加實用。

Q3: 我需要付費才能使用這個新模型嗎?

不需要!你可以透過 DeepSeek 官方免費提供的 App、網頁端和小程式直接體驗。對於有更高需求的開發者,可以選擇使用 DeepSeek API(依用量計費),或是直接從 HuggingFace 或 ModelScope 下載開源模型進行部署。

分享至:

© 2025 Communeify. All rights reserved.