DeepSeek-V3.1-Terminus 登场：修复语言一致性、强化 Agent 能力，带来更稳定的 AI 体验

DeepSeek AI 团队听取广大使用者的反馈，由DeepSeek-V3.1隆重推出全新升级版 DeepSeek-V3.1-Terminus。新版本不仅修复了语言一致性问题，更大幅强化了 Code Agent 与 Search Agent 的能力，带来更稳定、更强大的 AI 体验。本文将带您深入了解 Terminus 版本的亮点，并透过详细的评测数据一探究竟。

你的回馈，我们听见了：DeepSeek-V3.1-Terminus 的诞生

在 AI 技术快速迭代的今天，一个模型的好坏，不仅仅取决于冰冷的评测分数，更在于它是否能真正解决使用者的痛点。DeepSeek AI 团队显然深谙此道。最近，他们正式推出了 DeepSeek-V3.1-Terminus，这不单单是一个版本的更新，更像是一次与社区的深度对话。

坦白说，再强大的模型，如果输出时中英文夹杂，或是偶尔冒出一些令人费解的异常字符，那种体验真的会让人有点出戏。这次 Terminus 版本的一个核心目标，就是解决这个问题，全面提升语言一致性。

除此之外，另一个重头戏，就是 Agent 能力的再次进化。这里说的 Agent，你可以把它想像成 AI 的「手」和「脚」，让它不只能聊天，更能帮你执行复杂任务。Terminus 版本特别针对 Code Agent（写代码的帮手）和 Search Agent（上网查资料的帮手）进行了深度优化，让它们在实际应用中更加得心应手。

不只是说说而已：用数据看见 Terminus 的硬实力

空口无凭，效能的提升终究要靠数据说话。让我们来看看 DeepSeek-V3.1-Terminus 在各大权威评测（Benchmark）中的表现究竟如何。

Benchmark	DeepSeek-V3.1	DeepSeek-V3.1-Terminus
非 Agent (thinking 模式)
MMLU-Pro	84.8	85.0
GPQA-Diamond	80.1	80.7
Humanity’s Last Exam	15.9	21.7
LiveCodeBench	74.8	74.9
Codeforces	2091	2046
Aider-Polyglot	76.3	76.1
Agent
BrowseComp	30.0	38.5
BrowseComp-zh	49.2	45.0
SimpleQA	93.4	96.8
SWE Verified	66.0	68.4
SWE-bench Multilingual	54.5	57.8
Terminal-bench	31.3	36.7

从上方的图表可以清楚看到，这次的更新是全面性的。

非 Agent 测评（模型基础能力）

在考验模型基础知识和推理能力的「非 Agent 测评」中，Terminus 版本维持了原有的高水准，并在部分项目上取得了突破。

MMLU-Pro & GPQA-Diamond： 这两项考验的是模型的多任务语言理解和专业问答能力。Terminus 的分数从 84.8 微升至 85.0，从 80.1 提升到 80.7，显示其基础知识库更加稳固。
Humanity’s Last Exam： 这是一个极具挑战性的测试，分数从 15.9 大幅跃升至 21.7！这意味着模型在处理极端复杂和刁钻问题上的能力有了显著的增强。
LiveCodeBench & Codeforces： 在代码相关的测试中，分数基本持平，这也证明了新版本在优化的同时，并未牺牲其强大的代码生成能力。

Agent 测评（模型工具使用能力）

这部分才是本次更新的最大亮点！Agent 测评考验的是模型使用外部工具（如浏览器、终端）来完成任务的智慧。

BrowseComp & SimpleQA： 在模拟真人浏览网页和简单问答的测试中，分数从 30.0 飙升至 38.5，93.4 提升至 96.8。这代表 Terminus 的 Search Agent 变得更聪明，能更准确地理解指令并找到答案。
SWE Verified & SWE-bench Multilingual： 软件工程相关的测试也看到稳健的成长，证明其 Code Agent 的实力确实更上一层楼。
Terminal-bench： 在模拟使用终端命令行的测试中，分数从 31.3 提升到 36.7，这对于需要执行复杂系统操作的开发者来说，无疑是个好消息。

值得注意的是，官方提到 Search Agent 的工具集在新版本中进行了调整。想了解更详细的技术细节，可以参考官方在 HuggingFace 上发布的文件。

马上体验！如何取得最新的 DeepSeek-V3.1-Terminus？

说了这么多，你是不是也想立刻上手体验看看？很简单！DeepSeek 官方已经将所有平台的模型同步更新至 DeepSeek-V3.1-Terminus。

无论你习惯使用官方 App、网页端，还是小程序，现在感受到的就是最新、最强大的版本。

对于开发者和研究人员，DeepSeek API 也已同步更新，你可以无缝接轨，在你的应用中享受 Terminus 带来的稳定与强大。

当然，DeepSeek 作为开源社区的坚实伙伴，也第一时间提供了模型的下载地址：

HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
ModelScope: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus

常见问题解答 (FAQ)

Q1: DeepSeek-V3.1-Terminus 和之前的版本有什么不同？

Terminus 是 V3.1 的一个重要升级版。它主要针对使用者反馈的两个痛点进行了优化：第一是语言一致性，大幅减少了中英文混用和异常字符的问题；第二是Agent 能力，让模型在执行代码和搜索任务时表现得更出色、更稳定。

Q2: 这次更新最大的亮点是什么？

最大的亮点无疑是 Agent 效能的显著提升。从评测数据来看，无论是模拟浏览网页（BrowseComp）还是软件工程任务（SWE Verified），Terminus 的表现都有了质的飞跃，这让它在实际应用场景中变得更加实用。

Q3: 我需要付费才能使用这个新模型吗？

不需要！你可以透过 DeepSeek 官方免费提供的 App、网页端和小程序直接体验。对于有更高需求的开发者，可以选择使用 DeepSeek API（依用量计费），或是直接从 HuggingFace 或 ModelScope 下载开源模型进行部署。

分享到:

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

D …

news

DeepSeek-V3.2-Exp 大揭秘：更高效、更经济的长文本处理新选择

AI 初创公司 DeepSeek 推出了最新的实验性模型 DeepSeek-V3.2-Exp，其核心亮点在于引入了创新的“深度稀疏注意力机制 (DeepSeek Sparse Attention, DSA)”。这项技术旨在大幅提升处理长文本时的训练与推理效率，同时维持与前代模型相当的顶尖性能。更令人振奋的是，伴随新模型的发布，其 API 价格也大幅下调超过 50%，为开发者和企业用户带来了更具成本效益的 AI 解决方案。在人工智能的快车道上，效率与成本始终是推动技术普及的两大关键引擎。就在最近，备受瞩目的 AI 公司 DeepSeek 投下了一颗震撼弹，正式发布并开源了其最新的实验性大型语言模型——DeepSeek-V3.2-Exp。这不仅仅是一次常规的迭代更新，更是一次架构上的大胆探索，预示着下一代 AI 模型可能的发展方向。那么，这个新模型究竟有何过人之处？简单来说，它在处理“长文本”这类极度消耗运算资源的任务时，变得更快、也更便宜了。而这一切，都归功于其背后的核心技术：深度稀疏注意力机制 (DeepSeek Sparse Attention, DSA)。什么是深度稀疏注意力机制 (DSA)？为什么它很重要？想象一下，当你在阅读一篇万字长文并试图回答其中一个问题时，你会通读全文，但大脑会自动聚焦在与问题最相关的几个段落上，而不是逐字逐句地分析所有内容。传统的 AI 注意力机制就像是一个过于认真的学生，它会让模型中的每个词都去关注文章里的所有词，这种“全面关注”在文本很短时没问题，但一旦文本长度增加，运算量就会呈平方级增长，变得极其昂贵和缓慢。 DeepSeek 的 DSA 技术正是为了解决这个痛点而生。它为模型引入了一套智慧的筛选系统，主要包含两个部分：闪电索引器 (Lightning Indexer)：这是一个轻量级的评分员（本身也是一个小型 Transformer 模型）。当模型处理一个词（查询 token）时，这个索引器会快速扫描前文所有的词，并为它们的“相关性”打分。由于这个过程使用了高效的 FP8 格式和较少的计算单元，所以速度飞快。细粒度权杖选择 (Fine-grained Token Selection)：根据索引器的评分，系统只会挑选出分数最高的 top-k（例如 2048）个词，让当前的词只对这些最相关的“候选人”进行深度注意力计算。透过这种方式，DSA 成功地将运算复杂度从 O(L²) 降低到 O(Lk)，其中 L 是文本长度，k 是被选中的少量关键词。这意味着，即使文本长度达到 128K 甚至更长，模型也能保持高效运作，不会被庞大的计算量压垮。性能不减，效率倍增通常，提升效率可能意味着牺牲性能。但 DeepSeek-V3.2-Exp 最令人称道的一点，便是在引入 DSA 后，其在各大公开评测基准上的表现与前代强大的 V3.1-Terminus 模型几乎持平。

Sep 30, 2025 Read →

A …

news

AI 学会自己思考？DeepSeek-R1 登上《自然》封面，揭示纯强化学习的惊人潜力

人工智能领域迎来重大突破！DeepSeek-R1 模型登上了顶尖科学期刊《自然》的封面，它不依赖人类标注数据，仅通过强化学习就发展出高超的推理能力，在数学和程式设计等领域甚至超越了人类。这项研究为我们揭示了一条通往更自主、更强大 AI 的全新路径。 AI 圈的大新闻：当顶尖期刊为大型语言模型献上封面你知道吗？当一个研究成果登上《自然》（Nature）期刊的封面时，这意味着它不仅仅是一次小小的进步，而是一次可能改变整个领域游戏规则的重大突破。最近，这个殊荣给了名为 DeepSeek-R1 的大型语言模型（LLM）。这件事之所以如此轰动，不仅因为它是第一个经过长达七个月、由八位外部专家严格同行评审的主流大型语言模型，更重要的是它所代表的理念——AI 或许不再需要人类手把手地教导，也能学会如何「思考」。这篇文章将带你深入了解，DeepSeek-R1 究竟做了什么，它如何实现自我进化，以及这对人工智能的未来意味着什么。这不只是另一个 AI 模型，这是一次观念的革新一直以来，训练大型语言模型就像是教一个非常聪明的学生。我们首先给它阅读海量的书籍和网路资料（这叫预训练），让它学会语言的基础。然后，我们会找来许多人类老师，准备大量的「标准答案」来一题一题地教它（这叫监督式微调，SFT）。这种方法虽然有效，但有几个天生的瓶颈：成本高昂：聘请大量专家来标注高品质的资料，既花钱又费时。天花板效应： AI 的表现很难超越教导它的人类老师。如果老师的答案不够好，学生的水平自然也受限。潜在偏见：人类的思维模式和偏见，也会在教学过程中不知不觉地传递给 AI。然而，DeepSeek-R1 走了一条截然不同的路。研究团队的核心想法是：能不能让 AI 像我们学习新技能一样，透过不断的「尝试与犯错」来自我提升？这就是强化学习（Reinforcement Learning, RL）的核心精神。说白了，这就好比教 AI 下棋。我们不需要给它看几百万份棋谱，只需要告诉它游戏规则和「获胜」这个目标。然后，让它自己去对弈，赢了就给奖励，输了就学习教训。DeepSeek-R1 就是在数学、程式设计这些有明确「对错」的领域，用这种方式学会了推理。 DeepSeek-R1 是如何「自我进化」的？这项研究的核心是一个名为 DeepSeek-R1-Zero 的纯粹版模型。它的训练过程相当迷人，完全抛弃了传统的监督式微调。研究团队使用了一种称为「群体相对策略优化」（Group Relative Policy Optimization, GRPO）的强化学习演算法。他们给模型抛出复杂的数学题或程式设计挑战，但不告诉它解题步骤。模型需要自行生成思考过程（放在 <think> 标籤里）和最终答案（放在 <answer> 标籤里）。唯一的奖励讯号，就是判断最终答案的正确性。神奇的事情发生了。在训练过程中，模型自己发展出了一些令人惊讶的高级策略：自我反思与修正：模型在思考过程中，会出现类似「等等，这里好像错了」、「让我再试一次」的念头。研究人员发现，模型输出中「wait」（等待）这个词的出现频率在训练后期显著增加，这简直就是 AI 的「灵光一现」（Aha moment）。动态调整思考深度：遇到简单问题时，它会用较短的思考链快速给出答案；而面对复杂难题时，它会生成长达数千个词的详细推理，一步步探索解决方案。非人类的路径：因为不受人类思维的束缚，它有时会探索出一些更高效、但不符合人类直觉的解题路径。当然，这个纯粹的 DeepSeek-R1-Zero 模型虽然推理能力超群，但在与人互动时却显得有些「不修边幅」，比如回答的可读性较差，有时还会中英文夹杂。因此，团队在此基础上，透过多阶段的学习框架（整合了少量的人类偏好资料），打造出更完善的 DeepSeek-R1 模型。它继承了 Zero 版本的强大推理核心，同时也更符合人类的沟通习惯，变得更乐于助人且无害。成果惊人：在数学与程式领域超越人类空口无凭，DeepSeek-R1 的表现确实令人瞠目结舌。在一系列公认的困难基准测试中，它取得了顶尖的成绩：

Sep 18, 2025 Read →

D …

tool

DeepSeek V3.1 重磅升级！128k 超长上下文，Hugging Face 同步开源！

深度探索（DeepSeek）正式将其线上模型升级至 V3.1 版本，最引人注目的亮点，便是将上下文长度一举扩展至 128k。这不仅仅是一个数字上的飞跃，更意味着 AI 在处理复杂、长篇任务时的能力边界被再次拓宽。更令人兴奋的是，其基础模型也已在 Hugging Face 上开源！本文将带你深入了解这次更新的实际意义，以及它将如何改变我们的 AI 互动体验。最近，AI 领域的技术竞赛似乎从未停歇，而这一次，焦点落在了深度探索（DeepSeek）身上。他们悄悄地将旗下线上模型升级到了最新的 V3.1 版本，并带来了一个足以让许多开发者和重度使用者兴奋不已的更新——上下文长度扩展至 128k。你可能会想，128k？这串数字到底代表什么？别急，让我们用更生活化的方式来聊聊。先聊聊「上下文长度」这回事，它重要吗？当然重要！你可以把 AI 模型的「上下文长度」（Context Length）想像成它的「短期记忆」或「工作记忆」。当你和 AI 对话或要求它处理一份文件时，它需要将这些信息全部记在脑子里，才能理解你的完整意图并给出准确的回应。这个「记忆」的容量是有限的。如果上下文长度太短，就像和一个记忆力不太好的人说话一样，你刚说完前面几句，他可能就忘了，导致对话牛头不对马嘴，或者在处理长文件时只能看到片段，无法掌握全貌。过去，许多模型可能只有 4k、8k 或 16k 的上下文长度，这在处理简单问答时绰绰有余，但面对稍微复杂的任务就显得捉襟见肘了。那么，128k 的「超大记忆」意味着什么？从64k扩展到 128k，这不是量变，而是质变。一个拥有 128k 上下文长度的 AI，意味着它一次可以「记住」并处理大约 10 万个汉字或单词的内容。这带来的好处是显而易见的：能读懂整本「书」了：你可以直接把一份几十页的市场分析报告、一篇长篇学术论文，甚至是一本中篇小说的完整章节丢给它，让它进行总结、提问或改写，而不用担心它读到后面忘了前面。对话更有连续性：在长时间的连续对话中，它能更好地记住你们之前讨论过的所有细节，不会轻易「失忆」，让整个互动过程更加流畅、智能。程式码除错的神队友：对于开发者来说，这简直是福音。你可以将整个复杂的程式码库或专案文件餵给它，让它帮你找出 bug、理解程式逻辑或编写新的功能模组。它能看到完整的程式码脉络，而不是零散的片段。更细腻的内容创作：无论是撰写小说、剧本还是商业计划书，128k 的上下文让 AI 能够在更宏大的故事框架下进行创作，确保角色设定的一致性和情节发展的连贯性。简单来说，更大的上下文窗口，意味着 AI 从一个只能处理片段信息的助手，进化成了一个能够理解复杂、长篇背景的专家。如何体验全新的 DeepSeek V3.1？这次的升级非常全面，DeepSeek 确保了所有使用者都能第一时间体验到新模型的强大能力。无论是你是普通用户还是专业开发者，都可以透过以下管道无缝接轨：官方网页官方 APP（iOS/Android）微信小程式 API 接口这意味着，无论你习惯在电脑前工作，还是在手机上随手查询，都能享受到 128k 上下文长度带来的便利。特别是对于需要将 AI 功能整合到自己应用程式中的开发者，透过 API 就能直接调用 V3.1 模型，为自己的产品赋能。

Aug 20, 2025 Read →