news

DeepSeek-V3.1-Terminus 登场:修复语言一致性、强化 Agent 能力,带来更稳定的 AI 体验

September 23, 2025
Updated Sep 23
1 min read

DeepSeek AI 团队听取广大使用者的反馈,由DeepSeek-V3.1隆重推出全新升级版 DeepSeek-V3.1-Terminus。新版本不仅修复了语言一致性问题,更大幅强化了 Code Agent 与 Search Agent 的能力,带来更稳定、更强大的 AI 体验。本文将带您深入了解 Terminus 版本的亮点,并透过详细的评测数据一探究竟。


你的回馈,我们听见了:DeepSeek-V3.1-Terminus 的诞生

在 AI 技术快速迭代的今天,一个模型的好坏,不仅仅取决于冰冷的评测分数,更在于它是否能真正解决使用者的痛点。DeepSeek AI 团队显然深谙此道。最近,他们正式推出了 DeepSeek-V3.1-Terminus,这不单单是一个版本的更新,更像是一次与社区的深度对话。

坦白说,再强大的模型,如果输出时中英文夹杂,或是偶尔冒出一些令人费解的异常字符,那种体验真的会让人有点出戏。这次 Terminus 版本的一个核心目标,就是解决这个问题,全面提升语言一致性

除此之外,另一个重头戏,就是 Agent 能力的再次进化。这里说的 Agent,你可以把它想像成 AI 的「手」和「脚」,让它不只能聊天,更能帮你执行复杂任务。Terminus 版本特别针对 Code Agent(写代码的帮手)和 Search Agent(上网查资料的帮手)进行了深度优化,让它们在实际应用中更加得心应手。

不只是说说而已:用数据看见 Terminus 的硬实力

空口无凭,效能的提升终究要靠数据说话。让我们来看看 DeepSeek-V3.1-Terminus 在各大权威评测(Benchmark)中的表现究竟如何。

BenchmarkDeepSeek-V3.1DeepSeek-V3.1-Terminus
非 Agent (thinking 模式)
MMLU-Pro84.885.0
GPQA-Diamond80.180.7
Humanity’s Last Exam15.921.7
LiveCodeBench74.874.9
Codeforces20912046
Aider-Polyglot76.376.1
Agent
BrowseComp30.038.5
BrowseComp-zh49.245.0
SimpleQA93.496.8
SWE Verified66.068.4
SWE-bench Multilingual54.557.8
Terminal-bench31.336.7

从上方的图表可以清楚看到,这次的更新是全面性的。

非 Agent 测评(模型基础能力)

在考验模型基础知识和推理能力的「非 Agent 测评」中,Terminus 版本维持了原有的高水准,并在部分项目上取得了突破。

  • MMLU-Pro & GPQA-Diamond: 这两项考验的是模型的多任务语言理解和专业问答能力。Terminus 的分数从 84.8 微升至 85.0,从 80.1 提升到 80.7,显示其基础知识库更加稳固。
  • Humanity’s Last Exam: 这是一个极具挑战性的测试,分数从 15.9 大幅跃升至 21.7!这意味着模型在处理极端复杂和刁钻问题上的能力有了显著的增强。
  • LiveCodeBench & Codeforces: 在代码相关的测试中,分数基本持平,这也证明了新版本在优化的同时,并未牺牲其强大的代码生成能力。

Agent 测评(模型工具使用能力)

这部分才是本次更新的最大亮点!Agent 测评考验的是模型使用外部工具(如浏览器、终端)来完成任务的智慧。

  • BrowseComp & SimpleQA: 在模拟真人浏览网页和简单问答的测试中,分数从 30.0 飙升至 38.5,93.4 提升至 96.8。这代表 Terminus 的 Search Agent 变得更聪明,能更准确地理解指令并找到答案。
  • SWE Verified & SWE-bench Multilingual: 软件工程相关的测试也看到稳健的成长,证明其 Code Agent 的实力确实更上一层楼。
  • Terminal-bench: 在模拟使用终端命令行的测试中,分数从 31.3 提升到 36.7,这对于需要执行复杂系统操作的开发者来说,无疑是个好消息。

值得注意的是,官方提到 Search Agent 的工具集在新版本中进行了调整。想了解更详细的技术细节,可以参考官方在 HuggingFace 上发布的文件。

马上体验!如何取得最新的 DeepSeek-V3.1-Terminus?

说了这么多,你是不是也想立刻上手体验看看?很简单!DeepSeek 官方已经将所有平台的模型同步更新至 DeepSeek-V3.1-Terminus

无论你习惯使用官方 App、网页端,还是小程序,现在感受到的就是最新、最强大的版本。

对于开发者和研究人员,DeepSeek API 也已同步更新,你可以无缝接轨,在你的应用中享受 Terminus 带来的稳定与强大。

当然,DeepSeek 作为开源社区的坚实伙伴,也第一时间提供了模型的下载地址:


常见问题解答 (FAQ)

Q1: DeepSeek-V3.1-Terminus 和之前的版本有什么不同?

Terminus 是 V3.1 的一个重要升级版。它主要针对使用者反馈的两个痛点进行了优化:第一是语言一致性,大幅减少了中英文混用和异常字符的问题;第二是Agent 能力,让模型在执行代码和搜索任务时表现得更出色、更稳定。

Q2: 这次更新最大的亮点是什么?

最大的亮点无疑是 Agent 效能的显著提升。从评测数据来看,无论是模拟浏览网页(BrowseComp)还是软件工程任务(SWE Verified),Terminus 的表现都有了质的飞跃,这让它在实际应用场景中变得更加实用。

Q3: 我需要付费才能使用这个新模型吗?

不需要!你可以透过 DeepSeek 官方免费提供的 App、网页端和小程序直接体验。对于有更高需求的开发者,可以选择使用 DeepSeek API(依用量计费),或是直接从 HuggingFace 或 ModelScope 下载开源模型进行部署。

分享到:
Featured Partners

© 2026 Communeify. All rights reserved.