DeepSeek AI 团队听取广大使用者的反馈,由DeepSeek-V3.1隆重推出全新升级版 DeepSeek-V3.1-Terminus。新版本不仅修复了语言一致性问题,更大幅强化了 Code Agent 与 Search Agent 的能力,带来更稳定、更强大的 AI 体验。本文将带您深入了解 Terminus 版本的亮点,并透过详细的评测数据一探究竟。
你的回馈,我们听见了:DeepSeek-V3.1-Terminus 的诞生
在 AI 技术快速迭代的今天,一个模型的好坏,不仅仅取决于冰冷的评测分数,更在于它是否能真正解决使用者的痛点。DeepSeek AI 团队显然深谙此道。最近,他们正式推出了 DeepSeek-V3.1-Terminus,这不单单是一个版本的更新,更像是一次与社区的深度对话。
坦白说,再强大的模型,如果输出时中英文夹杂,或是偶尔冒出一些令人费解的异常字符,那种体验真的会让人有点出戏。这次 Terminus 版本的一个核心目标,就是解决这个问题,全面提升语言一致性。
除此之外,另一个重头戏,就是 Agent 能力的再次进化。这里说的 Agent,你可以把它想像成 AI 的「手」和「脚」,让它不只能聊天,更能帮你执行复杂任务。Terminus 版本特别针对 Code Agent(写代码的帮手)和 Search Agent(上网查资料的帮手)进行了深度优化,让它们在实际应用中更加得心应手。
不只是说说而已:用数据看见 Terminus 的硬实力
空口无凭,效能的提升终究要靠数据说话。让我们来看看 DeepSeek-V3.1-Terminus 在各大权威评测(Benchmark)中的表现究竟如何。
| Benchmark | DeepSeek-V3.1 | DeepSeek-V3.1-Terminus |
|---|---|---|
| 非 Agent (thinking 模式) | ||
| MMLU-Pro | 84.8 | 85.0 |
| GPQA-Diamond | 80.1 | 80.7 |
| Humanity’s Last Exam | 15.9 | 21.7 |
| LiveCodeBench | 74.8 | 74.9 |
| Codeforces | 2091 | 2046 |
| Aider-Polyglot | 76.3 | 76.1 |
| Agent | ||
| BrowseComp | 30.0 | 38.5 |
| BrowseComp-zh | 49.2 | 45.0 |
| SimpleQA | 93.4 | 96.8 |
| SWE Verified | 66.0 | 68.4 |
| SWE-bench Multilingual | 54.5 | 57.8 |
| Terminal-bench | 31.3 | 36.7 |
从上方的图表可以清楚看到,这次的更新是全面性的。
非 Agent 测评(模型基础能力)
在考验模型基础知识和推理能力的「非 Agent 测评」中,Terminus 版本维持了原有的高水准,并在部分项目上取得了突破。
- MMLU-Pro & GPQA-Diamond: 这两项考验的是模型的多任务语言理解和专业问答能力。
Terminus的分数从 84.8 微升至 85.0,从 80.1 提升到 80.7,显示其基础知识库更加稳固。 - Humanity’s Last Exam: 这是一个极具挑战性的测试,分数从 15.9 大幅跃升至 21.7!这意味着模型在处理极端复杂和刁钻问题上的能力有了显著的增强。
- LiveCodeBench & Codeforces: 在代码相关的测试中,分数基本持平,这也证明了新版本在优化的同时,并未牺牲其强大的代码生成能力。
Agent 测评(模型工具使用能力)
这部分才是本次更新的最大亮点!Agent 测评考验的是模型使用外部工具(如浏览器、终端)来完成任务的智慧。
- BrowseComp & SimpleQA: 在模拟真人浏览网页和简单问答的测试中,分数从 30.0 飙升至 38.5,93.4 提升至 96.8。这代表
Terminus的 Search Agent 变得更聪明,能更准确地理解指令并找到答案。 - SWE Verified & SWE-bench Multilingual: 软件工程相关的测试也看到稳健的成长,证明其 Code Agent 的实力确实更上一层楼。
- Terminal-bench: 在模拟使用终端命令行的测试中,分数从 31.3 提升到 36.7,这对于需要执行复杂系统操作的开发者来说,无疑是个好消息。
值得注意的是,官方提到 Search Agent 的工具集在新版本中进行了调整。想了解更详细的技术细节,可以参考官方在 HuggingFace 上发布的文件。
马上体验!如何取得最新的 DeepSeek-V3.1-Terminus?
说了这么多,你是不是也想立刻上手体验看看?很简单!DeepSeek 官方已经将所有平台的模型同步更新至 DeepSeek-V3.1-Terminus。
无论你习惯使用官方 App、网页端,还是小程序,现在感受到的就是最新、最强大的版本。
对于开发者和研究人员,DeepSeek API 也已同步更新,你可以无缝接轨,在你的应用中享受 Terminus 带来的稳定与强大。
当然,DeepSeek 作为开源社区的坚实伙伴,也第一时间提供了模型的下载地址:
- HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
- ModelScope: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
常见问题解答 (FAQ)
Q1: DeepSeek-V3.1-Terminus 和之前的版本有什么不同?
Terminus 是 V3.1 的一个重要升级版。它主要针对使用者反馈的两个痛点进行了优化:第一是语言一致性,大幅减少了中英文混用和异常字符的问题;第二是Agent 能力,让模型在执行代码和搜索任务时表现得更出色、更稳定。
Q2: 这次更新最大的亮点是什么?
最大的亮点无疑是 Agent 效能的显著提升。从评测数据来看,无论是模拟浏览网页(BrowseComp)还是软件工程任务(SWE Verified),Terminus 的表现都有了质的飞跃,这让它在实际应用场景中变得更加实用。
Q3: 我需要付费才能使用这个新模型吗?
不需要!你可以透过 DeepSeek 官方免费提供的 App、网页端和小程序直接体验。对于有更高需求的开发者,可以选择使用 DeepSeek API(依用量计费),或是直接从 HuggingFace 或 ModelScope 下载开源模型进行部署。


