DeepSeek-V3.2-Exp 大揭秘：更高效、更经济的长文本处理新选择

AI 初创公司 DeepSeek 推出了最新的实验性模型 DeepSeek-V3.2-Exp，其核心亮点在于引入了创新的“深度稀疏注意力机制 (DeepSeek Sparse Attention, DSA)”。这项技术旨在大幅提升处理长文本时的训练与推理效率，同时维持与前代模型相当的顶尖性能。更令人振奋的是，伴随新模型的发布，其 API 价格也大幅下调超过 50%，为开发者和企业用户带来了更具成本效益的 AI 解决方案。

在人工智能的快车道上，效率与成本始终是推动技术普及的两大关键引擎。就在最近，备受瞩目的 AI 公司 DeepSeek 投下了一颗震撼弹，正式发布并开源了其最新的实验性大型语言模型——DeepSeek-V3.2-Exp。这不仅仅是一次常规的迭代更新，更是一次架构上的大胆探索，预示着下一代 AI 模型可能的发展方向。

那么，这个新模型究竟有何过人之处？简单来说，它在处理“长文本”这类极度消耗运算资源的任务时，变得更快、也更便宜了。而这一切，都归功于其背后的核心技术：深度稀疏注意力机制 (DeepSeek Sparse Attention, DSA)。

什么是深度稀疏注意力机制 (DSA)？为什么它很重要？

想象一下，当你在阅读一篇万字长文并试图回答其中一个问题时，你会通读全文，但大脑会自动聚焦在与问题最相关的几个段落上，而不是逐字逐句地分析所有内容。传统的 AI 注意力机制就像是一个过于认真的学生，它会让模型中的每个词都去关注文章里的所有词，这种“全面关注”在文本很短时没问题，但一旦文本长度增加，运算量就会呈平方级增长，变得极其昂贵和缓慢。

DeepSeek 的 DSA 技术正是为了解决这个痛点而生。它为模型引入了一套智慧的筛选系统，主要包含两个部分：

闪电索引器 (Lightning Indexer)： 这是一个轻量级的评分员（本身也是一个小型 Transformer 模型）。当模型处理一个词（查询 token）时，这个索引器会快速扫描前文所有的词，并为它们的“相关性”打分。由于这个过程使用了高效的 FP8 格式和较少的计算单元，所以速度飞快。
细粒度权杖选择 (Fine-grained Token Selection)： 根据索引器的评分，系统只会挑选出分数最高的 top-k（例如 2048）个词，让当前的词只对这些最相关的“候选人”进行深度注意力计算。

透过这种方式，DSA 成功地将运算复杂度从 O(L²) 降低到 O(Lk)，其中 L 是文本长度，k 是被选中的少量关键词。这意味着，即使文本长度达到 128K 甚至更长，模型也能保持高效运作，不会被庞大的计算量压垮。

性能不减，效率倍增

通常，提升效率可能意味着牺牲性能。但 DeepSeek-V3.2-Exp 最令人称道的一点，便是在引入 DSA 后，其在各大公开评测基准上的表现与前代强大的 V3.1-Terminus 模型几乎持平。

无论是在考验综合知识的 MMLU-Pro，还是检验代码能力的 Codeforces、Aider-Polyglot，以及模拟代理任务的 BrowseComp 等多个领域，V3.2-Exp 都展现了与前代不相上下的实力。尽管在某些特定任务（如 HMMT 数学竞赛）上略有下降，官方解释这可能是因为新模型倾向于生成更精简的推理过程所致，但总体而言，这次架构升级成功实现了“鱼与熊掌兼得”。

成本大幅降低，开发者与企业的福音

技术的进步最终要体现在应用层面的价值上。伴随着 V3.2-Exp 的发布，DeepSeek 大幅调降了其 API 的价格，降幅超过 50%。根据官方公布的最新定价，输入 token 的成本（快取未命中）降至每百万 token 0.28 美元，而输出 token 更是降至每百万 token 0.42 美元。

对于需要处理大量文件、进行复杂 RAG（检索增强生成）或开发长文本分析工具的开发者和企业来说，这无疑是一个巨大的好消息。更低的成本意味着更高的部署可行性和更广阔的应用前景。

如何开始使用 DeepSeek-V3.2-Exp？

DeepSeek-V3.2-Exp 作为一个开源模型，已经在 Hugging Face 等平台上架，并提供了完整的代码和相关资源，方便社群进行研究和部署。

对于开发者： 可以立即测试 V3.2-Exp 的 API，评估其在特定应用场景下的表现，特别是在长文本处理方面的成本和效率优势。
对于企业用户： 考虑将现有应用迁移至新模型，以享受显著的成本节省。
对于研究人员： 深入研究 DSA 的理论基础，探索这种高效架构在其他模型上的应用潜力。

总结与展望

DeepSeek-V3.2-Exp 的推出，不仅是 DeepSeek 自身在模型架构上的一次重要突破，也为整个 AI 领域提供了处理长文本挑战的新思路。透过创新的稀疏注意力机制，它成功地在不牺牲太多性能的前提下，大幅提升了运算效率并降低了使用成本。

虽然这目前还是一个“实验性”版本，其在某些任务上的表现仍有微调空间，但它所展现出的巨大潜力，无疑为大型语言模型的未来发展指明了一个更高效、更经济、更可持续的方向。

DeepSeek-V3.2-Exp HuggingFace

常见问题解答 (FAQ)

Q1：DeepSeek-V3.2-Exp 和 V3.1-Terminus 的根本区别是什么？ A1：最主要的区别在于注意力机制的实现。V3.2-Exp 引入了“深度稀疏注意力 (DSA)”，可以选择性地计算注意力权重，从而大幅降低处理长文本时的运算复杂度。虽然模型参数规模 (67B) 保持不变，但 V3.2-Exp 在训练和推理效率上实现了质的飞跃。

Q2：稀疏注意力会影响模型的输出品质吗？ A2：根据官方的基准测试，V3.2-Exp 在绝大多数任务上的表现与 V3.1-Terminus 相当。DSA 经过精心设计，旨在保留最重要的注意力连结，因此对输出品质的影响极小。

Q3：V3.2-Exp 会完全取代 V3.1-Terminus 吗？ A3：目前 V3.2-Exp 是一个实验性版本，主要用于技术验证和社群测试。DeepSeek 官方表示会暂时保留 V3.1-Terminus 的 API 接口，以便用户进行比较测试，并会根据社群的回馈来决定 V3.2 正式版的发布计画。

分享到:

Featured Partners

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

Recommended for You

D …

news

DeepSeek-V3.1-Terminus 登场：修复语言一致性、强化 Agent 能力，带来更稳定的 AI 体验

DeepSeek AI 团队听取广大使用者的反馈，由DeepSeek-V3.1隆重推出全新升级版 DeepSeek-V3.1-Terminus。新版本不仅修复了语言一致性问题，更大幅强化了 Code Agent 与 Search Agent 的能力，带来更稳定、更强大的 AI 体验。本文将带您深入了解 Terminus 版本的亮点，并透过详细的评测数据一探究竟。你的回馈，我们听见了：DeepSeek-V3.1-Terminus 的诞生在 AI 技术快速迭代的今天，一个模型的好坏，不仅仅取决于冰冷的评测分数，更在于它是否能真正解决使用者的痛点。DeepSeek AI 团队显然深谙此道。最近，他们正式推出了 DeepSeek-V3.1-Terminus，这不单单是一个版本的更新，更像是一次与社区的深度对话。坦白说，再强大的模型，如果输出时中英文夹杂，或是偶尔冒出一些令人费解的异常字符，那种体验真的会让人有点出戏。这次 Terminus 版本的一个核心目标，就是解决这个问题，全面提升语言一致性。除此之外，另一个重头戏，就是 Agent 能力的再次进化。这里说的 Agent，你可以把它想像成 AI 的「手」和「脚」，让它不只能聊天，更能帮你执行复杂任务。Terminus 版本特别针对 Code Agent（写代码的帮手）和 Search Agent（上网查资料的帮手）进行了深度优化，让它们在实际应用中更加得心应手。不只是说说而已：用数据看见 Terminus 的硬实力空口无凭，效能的提升终究要靠数据说话。让我们来看看 DeepSeek-V3.1-Terminus 在各大权威评测（Benchmark）中的表现究竟如何。 Benchmark DeepSeek-V3.1 DeepSeek-V3.1-Terminus 非 Agent (thinking 模式) MMLU-Pro 84.8 85.0 GPQA-Diamond 80.1 80.7 Humanity’s Last Exam 15.9 21.7 LiveCodeBench 74.8 74.9 Codeforces 2091 2046 Aider-Polyglot 76.3 76.1 Agent BrowseComp 30.0 38.5 BrowseComp-zh 49.2 45.0 SimpleQA 93.4 96.8 SWE Verified 66.0 68.4 SWE-bench Multilingual 54.5 57.8 Terminal-bench 31.3 36.7 从上方的图表可以清楚看到，这次的更新是全面性的。

Sep 23, 2025 Read →

A …

news

AI 学会自己思考？DeepSeek-R1 登上《自然》封面，揭示纯强化学习的惊人潜力

人工智能领域迎来重大突破！DeepSeek-R1 模型登上了顶尖科学期刊《自然》的封面，它不依赖人类标注数据，仅通过强化学习就发展出高超的推理能力，在数学和程式设计等领域甚至超越了人类。这项研究为我们揭示了一条通往更自主、更强大 AI 的全新路径。 AI 圈的大新闻：当顶尖期刊为大型语言模型献上封面你知道吗？当一个研究成果登上《自然》（Nature）期刊的封面时，这意味着它不仅仅是一次小小的进步，而是一次可能改变整个领域游戏规则的重大突破。最近，这个殊荣给了名为 DeepSeek-R1 的大型语言模型（LLM）。这件事之所以如此轰动，不仅因为它是第一个经过长达七个月、由八位外部专家严格同行评审的主流大型语言模型，更重要的是它所代表的理念——AI 或许不再需要人类手把手地教导，也能学会如何「思考」。这篇文章将带你深入了解，DeepSeek-R1 究竟做了什么，它如何实现自我进化，以及这对人工智能的未来意味着什么。这不只是另一个 AI 模型，这是一次观念的革新一直以来，训练大型语言模型就像是教一个非常聪明的学生。我们首先给它阅读海量的书籍和网路资料（这叫预训练），让它学会语言的基础。然后，我们会找来许多人类老师，准备大量的「标准答案」来一题一题地教它（这叫监督式微调，SFT）。这种方法虽然有效，但有几个天生的瓶颈：成本高昂：聘请大量专家来标注高品质的资料，既花钱又费时。天花板效应： AI 的表现很难超越教导它的人类老师。如果老师的答案不够好，学生的水平自然也受限。潜在偏见：人类的思维模式和偏见，也会在教学过程中不知不觉地传递给 AI。然而，DeepSeek-R1 走了一条截然不同的路。研究团队的核心想法是：能不能让 AI 像我们学习新技能一样，透过不断的「尝试与犯错」来自我提升？这就是强化学习（Reinforcement Learning, RL）的核心精神。说白了，这就好比教 AI 下棋。我们不需要给它看几百万份棋谱，只需要告诉它游戏规则和「获胜」这个目标。然后，让它自己去对弈，赢了就给奖励，输了就学习教训。DeepSeek-R1 就是在数学、程式设计这些有明确「对错」的领域，用这种方式学会了推理。 DeepSeek-R1 是如何「自我进化」的？这项研究的核心是一个名为 DeepSeek-R1-Zero 的纯粹版模型。它的训练过程相当迷人，完全抛弃了传统的监督式微调。研究团队使用了一种称为「群体相对策略优化」（Group Relative Policy Optimization, GRPO）的强化学习演算法。他们给模型抛出复杂的数学题或程式设计挑战，但不告诉它解题步骤。模型需要自行生成思考过程（放在 <think> 标籤里）和最终答案（放在 <answer> 标籤里）。唯一的奖励讯号，就是判断最终答案的正确性。神奇的事情发生了。在训练过程中，模型自己发展出了一些令人惊讶的高级策略：自我反思与修正：模型在思考过程中，会出现类似「等等，这里好像错了」、「让我再试一次」的念头。研究人员发现，模型输出中「wait」（等待）这个词的出现频率在训练后期显著增加，这简直就是 AI 的「灵光一现」（Aha moment）。动态调整思考深度：遇到简单问题时，它会用较短的思考链快速给出答案；而面对复杂难题时，它会生成长达数千个词的详细推理，一步步探索解决方案。非人类的路径：因为不受人类思维的束缚，它有时会探索出一些更高效、但不符合人类直觉的解题路径。当然，这个纯粹的 DeepSeek-R1-Zero 模型虽然推理能力超群，但在与人互动时却显得有些「不修边幅」，比如回答的可读性较差，有时还会中英文夹杂。因此，团队在此基础上，透过多阶段的学习框架（整合了少量的人类偏好资料），打造出更完善的 DeepSeek-R1 模型。它继承了 Zero 版本的强大推理核心，同时也更符合人类的沟通习惯，变得更乐于助人且无害。成果惊人：在数学与程式领域超越人类空口无凭，DeepSeek-R1 的表现确实令人瞠目结舌。在一系列公认的困难基准测试中，它取得了顶尖的成绩：

Sep 18, 2025 Read →

D …

tool

DeepSeek V3.1 重磅升级！128k 超长上下文，Hugging Face 同步开源！

深度探索（DeepSeek）正式将其线上模型升级至 V3.1 版本，最引人注目的亮点，便是将上下文长度一举扩展至 128k。这不仅仅是一个数字上的飞跃，更意味着 AI 在处理复杂、长篇任务时的能力边界被再次拓宽。更令人兴奋的是，其基础模型也已在 Hugging Face 上开源！本文将带你深入了解这次更新的实际意义，以及它将如何改变我们的 AI 互动体验。最近，AI 领域的技术竞赛似乎从未停歇，而这一次，焦点落在了深度探索（DeepSeek）身上。他们悄悄地将旗下线上模型升级到了最新的 V3.1 版本，并带来了一个足以让许多开发者和重度使用者兴奋不已的更新——上下文长度扩展至 128k。你可能会想，128k？这串数字到底代表什么？别急，让我们用更生活化的方式来聊聊。先聊聊「上下文长度」这回事，它重要吗？当然重要！你可以把 AI 模型的「上下文长度」（Context Length）想像成它的「短期记忆」或「工作记忆」。当你和 AI 对话或要求它处理一份文件时，它需要将这些信息全部记在脑子里，才能理解你的完整意图并给出准确的回应。这个「记忆」的容量是有限的。如果上下文长度太短，就像和一个记忆力不太好的人说话一样，你刚说完前面几句，他可能就忘了，导致对话牛头不对马嘴，或者在处理长文件时只能看到片段，无法掌握全貌。过去，许多模型可能只有 4k、8k 或 16k 的上下文长度，这在处理简单问答时绰绰有余，但面对稍微复杂的任务就显得捉襟见肘了。那么，128k 的「超大记忆」意味着什么？从64k扩展到 128k，这不是量变，而是质变。一个拥有 128k 上下文长度的 AI，意味着它一次可以「记住」并处理大约 10 万个汉字或单词的内容。这带来的好处是显而易见的：能读懂整本「书」了：你可以直接把一份几十页的市场分析报告、一篇长篇学术论文，甚至是一本中篇小说的完整章节丢给它，让它进行总结、提问或改写，而不用担心它读到后面忘了前面。对话更有连续性：在长时间的连续对话中，它能更好地记住你们之前讨论过的所有细节，不会轻易「失忆」，让整个互动过程更加流畅、智能。程式码除错的神队友：对于开发者来说，这简直是福音。你可以将整个复杂的程式码库或专案文件餵给它，让它帮你找出 bug、理解程式逻辑或编写新的功能模组。它能看到完整的程式码脉络，而不是零散的片段。更细腻的内容创作：无论是撰写小说、剧本还是商业计划书，128k 的上下文让 AI 能够在更宏大的故事框架下进行创作，确保角色设定的一致性和情节发展的连贯性。简单来说，更大的上下文窗口，意味着 AI 从一个只能处理片段信息的助手，进化成了一个能够理解复杂、长篇背景的专家。如何体验全新的 DeepSeek V3.1？这次的升级非常全面，DeepSeek 确保了所有使用者都能第一时间体验到新模型的强大能力。无论是你是普通用户还是专业开发者，都可以透过以下管道无缝接轨：官方网页官方 APP（iOS/Android）微信小程式 API 接口这意味着，无论你习惯在电脑前工作，还是在手机上随手查询，都能享受到 128k 上下文长度带来的便利。特别是对于需要将 AI 功能整合到自己应用程式中的开发者，透过 API 就能直接调用 V3.1 模型，为自己的产品赋能。

Aug 20, 2025 Read →