DeepSeek V3.1 重磅升级！128k 超长上下文，Hugging Face 同步开源！

深度探索（DeepSeek）正式将其线上模型升级至 V3.1 版本，最引人注目的亮点，便是将上下文长度一举扩展至 128k。这不仅仅是一个数字上的飞跃，更意味着 AI 在处理复杂、长篇任务时的能力边界被再次拓宽。更令人兴奋的是，其基础模型也已在 Hugging Face 上开源！本文将带你深入了解这次更新的实际意义，以及它将如何改变我们的 AI 互动体验。

最近，AI 领域的技术竞赛似乎从未停歇，而这一次，焦点落在了深度探索（DeepSeek）身上。他们悄悄地将旗下线上模型升级到了最新的 V3.1 版本，并带来了一个足以让许多开发者和重度使用者兴奋不已的更新——上下文长度扩展至 128k。

你可能会想，128k？这串数字到底代表什么？别急，让我们用更生活化的方式来聊聊。

先聊聊「上下文长度」这回事，它重要吗？

当然重要！你可以把 AI 模型的「上下文长度」（Context Length）想像成它的「短期记忆」或「工作记忆」。当你和 AI 对话或要求它处理一份文件时，它需要将这些信息全部记在脑子里，才能理解你的完整意图并给出准确的回应。

这个「记忆」的容量是有限的。如果上下文长度太短，就像和一个记忆力不太好的人说话一样，你刚说完前面几句，他可能就忘了，导致对话牛头不对马嘴，或者在处理长文件时只能看到片段，无法掌握全貌。

过去，许多模型可能只有 4k、8k 或 16k 的上下文长度，这在处理简单问答时绰绰有余，但面对稍微复杂的任务就显得捉襟见肘了。

那么，128k 的「超大记忆」意味着什么？

从64k扩展到 128k，这不是量变，而是质变。一个拥有 128k 上下文长度的 AI，意味着它一次可以「记住」并处理大约 10 万个汉字或单词的内容。这带来的好处是显而易见的：

能读懂整本「书」了： 你可以直接把一份几十页的市场分析报告、一篇长篇学术论文，甚至是一本中篇小说的完整章节丢给它，让它进行总结、提问或改写，而不用担心它读到后面忘了前面。
对话更有连续性： 在长时间的连续对话中，它能更好地记住你们之前讨论过的所有细节，不会轻易「失忆」，让整个互动过程更加流畅、智能。
程式码除错的神队友： 对于开发者来说，这简直是福音。你可以将整个复杂的程式码库或专案文件餵给它，让它帮你找出 bug、理解程式逻辑或编写新的功能模组。它能看到完整的程式码脉络，而不是零散的片段。
更细腻的内容创作： 无论是撰写小说、剧本还是商业计划书，128k 的上下文让 AI 能够在更宏大的故事框架下进行创作，确保角色设定的一致性和情节发展的连贯性。

简单来说，更大的上下文窗口，意味着 AI 从一个只能处理片段信息的助手，进化成了一个能够理解复杂、长篇背景的专家。

如何体验全新的 DeepSeek V3.1？

这次的升级非常全面，DeepSeek 确保了所有使用者都能第一时间体验到新模型的强大能力。无论是你是普通用户还是专业开发者，都可以透过以下管道无缝接轨：

官方网页
官方 APP（iOS/Android）
微信小程式
API 接口

这意味着，无论你习惯在电脑前工作，还是在手机上随手查询，都能享受到 128k 上下文长度带来的便利。特别是对于需要将 AI 功能整合到自己应用程式中的开发者，透过 API 就能直接调用 V3.1 模型，为自己的产品赋能。

开发者的福音：Hugging Face 上的基础模型

除了提供即开即用的线上服务，DeepSeek 也没有忘记广大的开发者和开源社群。他们非常慷慨地将 DeepSeek V3.1 的基础模型（Base Model） 发布在了 Hugging Face 上。

这代表什么呢？

这意味着，如果你是研究人员、开发者或 AI 爱好者，你可以直接下载这个基础模型，在自己的环境中进行研究、实验，或者根据特定需求进行微调（Fine-tuning），打造出专属于你的客製化 AI 应用。

与线上版本不同，基础模型给了你最大的自由度和控制权。对于想要深入了解模型内部运作或是有特殊应用场景的开发者来说，这无疑是个巨大的宝藏。

模型链接在这里： DeepSeek-V3.1-Base on Hugging Face

这次升级，在 AI 浪潮中处于什么位置？

扩展上下文长度是当前顶尖大型语言模型发展的一个重要趋势。从 OpenAI 的 GPT-5 到 Google 的 Gemini，再到 Anthropic 的 Claude，各大模型都在不断挑战记忆的极限。

DeepSeek 这次将 128k 上下文作为线上模型的标配，并同步开源其基础模型，无疑是向市场宣告了其强大的技术实力与开放的态度。这不仅让自己在激烈的竞争中占据了有利位置，也为整个 AI 生态的发展做出了贡献。

对于使用者而言，这也是个好消息——更多的选择意味着更快的技术迭代和更普惠的价格。

总而言之，DeepSeek V3.1 的发布，不仅仅是一次常规的版本更新。它透过极大扩展模型的记忆容量，并拥抱开源社群，为我们展示了 AI 在理解和处理复杂资讯方面的巨大潜力。如果你还没试过，不妨现在就去体验一下，看看这个拥有「超大记忆」的 AI 助手，能为你的工作和生活带来怎样的惊喜。

由于目前只释出模型并没有描述，若日后有更新会再次更新此文章

分享到:

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

D …

news

DeepSeek-V3.2-Exp 大揭秘：更高效、更经济的长文本处理新选择

AI 初创公司 DeepSeek 推出了最新的实验性模型 DeepSeek-V3.2-Exp，其核心亮点在于引入了创新的“深度稀疏注意力机制 (DeepSeek Sparse Attention, DSA)”。这项技术旨在大幅提升处理长文本时的训练与推理效率，同时维持与前代模型相当的顶尖性能。更令人振奋的是，伴随新模型的发布，其 API 价格也大幅下调超过 50%，为开发者和企业用户带来了更具成本效益的 AI 解决方案。在人工智能的快车道上，效率与成本始终是推动技术普及的两大关键引擎。就在最近，备受瞩目的 AI 公司 DeepSeek 投下了一颗震撼弹，正式发布并开源了其最新的实验性大型语言模型——DeepSeek-V3.2-Exp。这不仅仅是一次常规的迭代更新，更是一次架构上的大胆探索，预示着下一代 AI 模型可能的发展方向。那么，这个新模型究竟有何过人之处？简单来说，它在处理“长文本”这类极度消耗运算资源的任务时，变得更快、也更便宜了。而这一切，都归功于其背后的核心技术：深度稀疏注意力机制 (DeepSeek Sparse Attention, DSA)。什么是深度稀疏注意力机制 (DSA)？为什么它很重要？想象一下，当你在阅读一篇万字长文并试图回答其中一个问题时，你会通读全文，但大脑会自动聚焦在与问题最相关的几个段落上，而不是逐字逐句地分析所有内容。传统的 AI 注意力机制就像是一个过于认真的学生，它会让模型中的每个词都去关注文章里的所有词，这种“全面关注”在文本很短时没问题，但一旦文本长度增加，运算量就会呈平方级增长，变得极其昂贵和缓慢。 DeepSeek 的 DSA 技术正是为了解决这个痛点而生。它为模型引入了一套智慧的筛选系统，主要包含两个部分：闪电索引器 (Lightning Indexer)：这是一个轻量级的评分员（本身也是一个小型 Transformer 模型）。当模型处理一个词（查询 token）时，这个索引器会快速扫描前文所有的词，并为它们的“相关性”打分。由于这个过程使用了高效的 FP8 格式和较少的计算单元，所以速度飞快。细粒度权杖选择 (Fine-grained Token Selection)：根据索引器的评分，系统只会挑选出分数最高的 top-k（例如 2048）个词，让当前的词只对这些最相关的“候选人”进行深度注意力计算。透过这种方式，DSA 成功地将运算复杂度从 O(L²) 降低到 O(Lk)，其中 L 是文本长度，k 是被选中的少量关键词。这意味着，即使文本长度达到 128K 甚至更长，模型也能保持高效运作，不会被庞大的计算量压垮。性能不减，效率倍增通常，提升效率可能意味着牺牲性能。但 DeepSeek-V3.2-Exp 最令人称道的一点，便是在引入 DSA 后，其在各大公开评测基准上的表现与前代强大的 V3.1-Terminus 模型几乎持平。

Sep 30, 2025 Read →

D …

news

DeepSeek-V3.1-Terminus 登场：修复语言一致性、强化 Agent 能力，带来更稳定的 AI 体验

DeepSeek AI 团队听取广大使用者的反馈，由DeepSeek-V3.1隆重推出全新升级版 DeepSeek-V3.1-Terminus。新版本不仅修复了语言一致性问题，更大幅强化了 Code Agent 与 Search Agent 的能力，带来更稳定、更强大的 AI 体验。本文将带您深入了解 Terminus 版本的亮点，并透过详细的评测数据一探究竟。你的回馈，我们听见了：DeepSeek-V3.1-Terminus 的诞生在 AI 技术快速迭代的今天，一个模型的好坏，不仅仅取决于冰冷的评测分数，更在于它是否能真正解决使用者的痛点。DeepSeek AI 团队显然深谙此道。最近，他们正式推出了 DeepSeek-V3.1-Terminus，这不单单是一个版本的更新，更像是一次与社区的深度对话。坦白说，再强大的模型，如果输出时中英文夹杂，或是偶尔冒出一些令人费解的异常字符，那种体验真的会让人有点出戏。这次 Terminus 版本的一个核心目标，就是解决这个问题，全面提升语言一致性。除此之外，另一个重头戏，就是 Agent 能力的再次进化。这里说的 Agent，你可以把它想像成 AI 的「手」和「脚」，让它不只能聊天，更能帮你执行复杂任务。Terminus 版本特别针对 Code Agent（写代码的帮手）和 Search Agent（上网查资料的帮手）进行了深度优化，让它们在实际应用中更加得心应手。不只是说说而已：用数据看见 Terminus 的硬实力空口无凭，效能的提升终究要靠数据说话。让我们来看看 DeepSeek-V3.1-Terminus 在各大权威评测（Benchmark）中的表现究竟如何。 Benchmark DeepSeek-V3.1 DeepSeek-V3.1-Terminus 非 Agent (thinking 模式) MMLU-Pro 84.8 85.0 GPQA-Diamond 80.1 80.7 Humanity’s Last Exam 15.9 21.7 LiveCodeBench 74.8 74.9 Codeforces 2091 2046 Aider-Polyglot 76.3 76.1 Agent BrowseComp 30.0 38.5 BrowseComp-zh 49.2 45.0 SimpleQA 93.4 96.8 SWE Verified 66.0 68.4 SWE-bench Multilingual 54.5 57.8 Terminal-bench 31.3 36.7 从上方的图表可以清楚看到，这次的更新是全面性的。

Sep 23, 2025 Read →

A …

news

AI 学会自己思考？DeepSeek-R1 登上《自然》封面，揭示纯强化学习的惊人潜力

人工智能领域迎来重大突破！DeepSeek-R1 模型登上了顶尖科学期刊《自然》的封面，它不依赖人类标注数据，仅通过强化学习就发展出高超的推理能力，在数学和程式设计等领域甚至超越了人类。这项研究为我们揭示了一条通往更自主、更强大 AI 的全新路径。 AI 圈的大新闻：当顶尖期刊为大型语言模型献上封面你知道吗？当一个研究成果登上《自然》（Nature）期刊的封面时，这意味着它不仅仅是一次小小的进步，而是一次可能改变整个领域游戏规则的重大突破。最近，这个殊荣给了名为 DeepSeek-R1 的大型语言模型（LLM）。这件事之所以如此轰动，不仅因为它是第一个经过长达七个月、由八位外部专家严格同行评审的主流大型语言模型，更重要的是它所代表的理念——AI 或许不再需要人类手把手地教导，也能学会如何「思考」。这篇文章将带你深入了解，DeepSeek-R1 究竟做了什么，它如何实现自我进化，以及这对人工智能的未来意味着什么。这不只是另一个 AI 模型，这是一次观念的革新一直以来，训练大型语言模型就像是教一个非常聪明的学生。我们首先给它阅读海量的书籍和网路资料（这叫预训练），让它学会语言的基础。然后，我们会找来许多人类老师，准备大量的「标准答案」来一题一题地教它（这叫监督式微调，SFT）。这种方法虽然有效，但有几个天生的瓶颈：成本高昂：聘请大量专家来标注高品质的资料，既花钱又费时。天花板效应： AI 的表现很难超越教导它的人类老师。如果老师的答案不够好，学生的水平自然也受限。潜在偏见：人类的思维模式和偏见，也会在教学过程中不知不觉地传递给 AI。然而，DeepSeek-R1 走了一条截然不同的路。研究团队的核心想法是：能不能让 AI 像我们学习新技能一样，透过不断的「尝试与犯错」来自我提升？这就是强化学习（Reinforcement Learning, RL）的核心精神。说白了，这就好比教 AI 下棋。我们不需要给它看几百万份棋谱，只需要告诉它游戏规则和「获胜」这个目标。然后，让它自己去对弈，赢了就给奖励，输了就学习教训。DeepSeek-R1 就是在数学、程式设计这些有明确「对错」的领域，用这种方式学会了推理。 DeepSeek-R1 是如何「自我进化」的？这项研究的核心是一个名为 DeepSeek-R1-Zero 的纯粹版模型。它的训练过程相当迷人，完全抛弃了传统的监督式微调。研究团队使用了一种称为「群体相对策略优化」（Group Relative Policy Optimization, GRPO）的强化学习演算法。他们给模型抛出复杂的数学题或程式设计挑战，但不告诉它解题步骤。模型需要自行生成思考过程（放在 <think> 标籤里）和最终答案（放在 <answer> 标籤里）。唯一的奖励讯号，就是判断最终答案的正确性。神奇的事情发生了。在训练过程中，模型自己发展出了一些令人惊讶的高级策略：自我反思与修正：模型在思考过程中，会出现类似「等等，这里好像错了」、「让我再试一次」的念头。研究人员发现，模型输出中「wait」（等待）这个词的出现频率在训练后期显著增加，这简直就是 AI 的「灵光一现」（Aha moment）。动态调整思考深度：遇到简单问题时，它会用较短的思考链快速给出答案；而面对复杂难题时，它会生成长达数千个词的详细推理，一步步探索解决方案。非人类的路径：因为不受人类思维的束缚，它有时会探索出一些更高效、但不符合人类直觉的解题路径。当然，这个纯粹的 DeepSeek-R1-Zero 模型虽然推理能力超群，但在与人互动时却显得有些「不修边幅」，比如回答的可读性较差，有时还会中英文夹杂。因此，团队在此基础上，透过多阶段的学习框架（整合了少量的人类偏好资料），打造出更完善的 DeepSeek-R1 模型。它继承了 Zero 版本的强大推理核心，同时也更符合人类的沟通习惯，变得更乐于助人且无害。成果惊人：在数学与程式领域超越人类空口无凭，DeepSeek-R1 的表现确实令人瞠目结舌。在一系列公认的困难基准测试中，它取得了顶尖的成绩：

Sep 18, 2025 Read →