阿里巴巴开源 Qwen3-Next：800亿参数模型，成本降90%、速度飙10倍的AI新巨兽

阿里巴巴开源了最新的 Qwen3-Next-80B-A3B 模型，这不仅仅是一次普通的更新。这款拥有 800 亿参数的庞然大物，透过创新的混合专家 (MoE) 架构，实现了训练成本降低 90%、推理速度提升 10 倍的惊人效率。本文将深入探讨其背后的技术、惊人的性能表现，以及它将如何改变 AIGC 的游戏规则。

在人工智能（AI）的竞赛中，大家似乎总有个迷思：模型越大，就一定越强大。但随之而来的是天文数字般的训练成本和缓慢的运算速度，这让许多开发者和企业望而却步。如果有一种模型，既拥有巨大规模的智慧，又兼具轻量级模型的效率呢？

听起来很不可思议，对吧？但阿里巴巴最新开源的 Qwen3-Next-80B-A3B 模型，似乎真的做到了。

这款模型标志着阿里在 AIGC（人工智能生成内容）领域的又一次重要突破，它不仅在参数规模上令人印象深刻，更在底层架构上进行了根本性的创新。

什么是 Qwen3-Next？不止是参数大而已

第一眼看到「800亿参数」，你可能会倒抽一口气，心想这得要多大的运算资源才跑得动？

但这正是 Qwen3-Next 最巧妙的地方。它的总参数虽然高达 800 亿，但在实际进行推理运算时，每个 token（可以理解为一个词或字符）只会「唤醒」其中的 30 亿个参数。

这是什么概念？打个比方，这就像你拥有了一座藏书 800 亿册的巨型图书馆，但当你需要回答一个问题时，一位超级聪明的图书馆管理员会瞬间帮你找出最相关的 30 亿册书，而不是让你大海捞针。这种「按需取用」的模式，带来了革命性的效率提升。

根据官方数据，这种设计让 Qwen3-Next 的训练成本相较于其前代、规模更小的 Qwen3-32B 模型，大幅下降了惊人的 90%，而推理效率却反过来提升了整整 10 倍！

混合专家 (MoE) 架构：效率背后的魔法

这一切效率提升的背后，都指向一个核心技术：混合专家架构 (Mixture of Experts, MoE)。

MoE 并不是一个全新的概念，但 Qwen3-Next 将其运用得出神入化。它内部设置了大量的「专家」（在这个模型中多达 512 个），每个专家都擅长处理特定类型的任务或知识。当模型接收到一个指令时，一个「门控网络」会聪明地判断该将这个任务分配给哪些专家来处理。

Qwen3-Next 的创新之处在于它结合了 门控 DeltaNet 和 门控注意力机制。这种混合设计克服了传统模型在处理超长文本时速度变慢、效果变差的通病。它既保证了闪电般的处理速度，又维持了强大的上下文学习能力。

简单来说，它在不牺牲性能的前提下，最大化地利用了每一分运算资源。

性能对决：Qwen3-Next 的实力有多强？

说了这么多效率，那么性能呢？会不会为了速度而牺牲了智慧？恰恰相反，Qwen3-Next 的表现强悍得令人惊讶。

从上方的数据图表可以看出，无论是在 MMLU（综合知识评测）、GSM8K（数学推理）还是 CRUX-O（代码生成）等关键基准测试中，Qwen3-Next-80B 的表现都全面超越了传统的密集模型 Qwen3-32B。

更让人瞩目的是，在 AIMO25 和 LiveBench 等更具挑战性的评测中，800 亿参数的 Qwen3-Next（Instruct 版本）其表现竟然能与阿里自家的 2350 亿参数旗舰模型 Qwen3-235B 相媲美，甚至在某些项目上不分轩轾。这证明了其架构的先进性——用更少的活化参数，达成了顶级模型的性能水准。

不仅如此，官方更指出，Qwen3-Next 在特定思考任务上的表现，甚至超越了谷歌最新的 Gemini-2.5-Flash 思考模型。

基准	Qwen3-Next-80B-A3B-Instruct	Qwen3-235B-A22B-Instruct-2507	Qwen3-32B 非思考	Qwen3-30B-A3B-Instruct-2507
SuperGPQA	58.8	62.6	42.2	53.4
AIME2.5	69.5	70.3	20.2	61.3
LiveCodeBench v6 (25.02-25.05)	56.6	51.8	29.1	43.2
Arena-Hard v2	82.7	79.2	34.1	69.0
LiveBench (20241125)	75.8	75.4	59.8	69.0

	Qwen3-30B-A3B 基础版	Qwen3-32B 基础版	Qwen3-Next-80B-A3B 基础版	Qwen3-235B-A22B 基础版
架构	MoE	密集	MoE	MoE
总参数量	30B	32B	80B	235B
激活参数量	3B	32B	3B	22B
通用任务
MMLU	81.38	83.61	84.72	87.81
MMLU-Redux	81.17	83.41	83.80	87.40
MMLU-Pro	61.49	65.54	66.05	68.18
SuperGPQA	35.72	39.78	41.52	44.06
BBH	81.54	87.38	87.13	88.87
数学、STEM 和编程任务
GPQA	43.94	49.49	43.43	47.47
GSM8K	91.81	93.40	90.30	94.39
MATH	59.04	61.62	62.36	71.84
EvalPlus	71.45	72.05	72.89	77.60
CRUX-O	67.20	72.50	74.25	79.00
多语言任务
MGSM	79.11	83.06	81.28	83.53
MMLU	81.46	83.83	84.43	86.70
INCLUDE	67.00	67.87	69.79	73.46

不只是快，更是聪明：多 Token 预测与长文本处理

Qwen3-Next 的另一个杀手锏是引入了 多 token 预测机制。传统模型通常是一个字一个字地生成内容，而 Qwen3-Next 则可以「预判」接下来可能出现的多个词语，这在「投机解码」这类加速技术中表现极佳，进一步提升了内容生成的速度。

此外，它在处理超长文本（例如 32K 以上的上下文）时的表现尤其突出。当许多模型面对长篇大论的文章或代码就开始变得迟钝时，Qwen3-Next 依然能保持高效的吞吐量，速度优势可达 7 到 10 倍。这对于需要深度文本分析、长篇报告摘要等应用场景来说，无疑是巨大的福音。

这对我们意味着什么？

Qwen3-Next 的开源，不仅是技术圈的一则新闻，它更可能带来实质的改变：

对开发者而言： 这意味着可以用更低的成本、更亲民的硬件，去接触和使用一个性能接近顶级旗舰的模型。这大大降低了 AI 应用的开发门槛，让更多创新的想法得以实现。
对企业而言： 部署 AIGC 服务的成本将显著降低，同时能为用户提供更快速、更流畅的互动体验。处理复杂的内部文件、分析市场报告、生成代码等任务，都将变得更加高效。

总而言之，Qwen3-Next 的出现证明了 AI 的未来发展方向，不单纯是盲目地堆砌参数，更是追求架构的智慧与效率。它在规模、性能和成本之间找到了一个绝佳的平衡点，为整个 AI 社区带来了新的可能性。

想亲自体验 Qwen3-Next 的威力吗？

在线体验: https://chat.qwen.ai/
开源地址 (Hugging Face): https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
官方博客: https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd

常见问题解答 (FAQ)

Q1: Qwen3-Next 和其他大型语言模型最大的不同是什么？

最大的不同在于它的「稀疏活化」特性。虽然它拥有 800 亿的总参数，但在处理任何任务时只会动用其中的一小部分（30 亿）。这使得它在保持顶级模型知识广度的同时，又具备了小型模型的运行效率，完美平衡了性能与成本。

Q2: 什么是混合专家 (MoE) 模型，它为什么这么高效？

您可以将 MoE 模型想象成一个由多位专家组成的团队。当一个复杂问题进来时，系统会自动指派最擅长该领域的几位专家来协同解决，而不是让所有专家（所有参数）都一起上。这种分工合作的方式，自然就大大提升了处理效率和资源利用率。

Q3: 我需要很强的硬件才能运行 Qwen3-Next 吗？

相较于同等级别的密集型模型（例如需要驱动数百亿甚至上千亿参数的模型），Qwen3-Next 对硬件的要求要友好得多。因为它的活化参数少，推理所需的计算资源和内存占用都相对较低，这让它更有可能在消费级或企业级的标准硬件上运行。

Q4: Qwen3-Next 适合用在哪些应用场景？

它几乎适用于所有 AIGC 领域，尤其擅长需要处理大量文本的任务，例如：

长篇文件分析与摘要： 快速阅读和总结研究论文、法律合约、财务报告。
企业知识库问答： 建立一个能快速回应员工问题的内部智慧助理。
复杂的代码生成与调试： 辅助开发人员编写和优化代码。
高品质的内容创作： 撰写营销文案、技术文件和创意写作。

分享到:

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

Recommended for You

V …

tool

VibeThinker-1.5B：小模型撬动大逻辑，AI推理能力不再是大厂专利

AI 圈又迎来了新的挑战者！由微博 AI 团队开发的 VibeThinker-1.5B 模型，仅用 15 亿参数和极低的训练成本，就在多项数学和程式设计基准测试中击败了数百倍于其规模的巨型模型。这是否意味着，AI 的未来不再是越大越好？本文将深入探讨 VibeThinker-1.5B 背后的独特训练方法、惊人效能以及它为 AI 领域带来的启示。你是否也曾认为，只有那些动辄数千亿、甚至上兆参数的庞然大物，才能在复杂的逻辑推理世界中称霸？长久以来，AI 领域似乎都遵循着一个不成文的规定：模型越大，能力越强。然而，微博 AI 团队最近开源的 VibeThinker-1.5B 模型，却以一种令人惊讶的方式，对这个“常识”发起了挑战。这个模型仅有 15 亿参数，训练成本更是低至 7,800 美元，却在多项高难度的数学和程式设计竞赛基准测试中，展现了与 GPT OSS-20B Medium 等大型模型相媲美，甚至超越部分巨型模型的推理能力。这究竟是怎么做到的？小个子的大能量：VibeThinker-1.5B 的惊人表现先来看看 VibeThinker-1.5B 的“战绩”。在 AIME24、AIME25 和 HMMT25 这三大数学基准测试中，它的得分全面超越了参数规模是其 400 多倍的 DeepSeek R1 模型。具体来说： AIME24: 80.3 vs. 79.8 AIME25: 74.4 vs. 70.0 HMMT25: 50.4 vs. 41.7 这样的成绩不仅仅是数字上的胜利，更重要的是，它证明了小型模型在经过精心设计和训练后，完全有潜力在复杂的逻辑推理任务上与巨型模型一较高下。更令人印象深刻的是，VibeThinker-1.5B 的基础模型在这些测试上的得分极低，这意味着其优异表现并非侥幸，而是其独特训练方法的直接成果。除了数学推理，VibeThinker-1.5B 在代码生成方面也同样出色。在 LiveCodeBench V6 这项评估真实世界程式设计能力的测试中，它以 51.1 的分数略微领先于 Magistral Medium 的 50.3 分，再次凸显了其强大的推理效能。

Nov 13, 2025 Read →

K …

tool

Kimi K2 Thinking 横空出世：月之暗面开源万亿级模型，AI 推理能力再攀新高峰

AI 领域的发展速度从未停歇。就在我们以为大型语言模型的能力已趋于稳定时，来自中国的顶尖 AI 公司月之暗面 (Moonshot AI) 投下了一枚震撼弹——正式推出并开源其最新的万亿级参数思考模型 Kimi K2 Thinking。这不仅是一个更强大的模型，更是一个被设计为“思考代理 (thinking agent)”的全新物종，它在推理、编码和复杂工具使用方面，都展现了令人惊艳的实力。你有没有想过，如果一个 AI 不仅仅是回答你的问题，而是能像一个专家一样，一步步地拆解问题、查找资料、使用工具，甚至连续执行数百个步骤来解决一个极其复杂的难题？这听起来像是科幻电影的情节，但月之暗面发布的 Kimi K2 Thinking，正在将这个想象变为现实。这款开源的“思考模型”，其核心设计理念就是“在行动中思考”。它不仅仅是语言的产生器，更是一个能够自主规划、推理和执行复杂任务的智慧代理。什么是“思考代理”？这和普通 AI 有何不同？坦白说，这是一个关键的区别。传统的 AI 模型在处理单一指令时表现出色，但面对需要多步骤、多工具协作的复杂任务时，往往会显得力不从心。 Kimi K2 Thinking 的设计初衷就是为了解决这个问题。它最引人注目的能力之一，就是能够在无人干预的情况下，连续执行 200 到 300 次的工具调用。这是什么概念？想象一下，你要解决一个博士级别的数学难题。你可能需要先查阅文献、接着用 Python 写一段代码来验证假设、然后再根据结果调整思路、最后才得出结论。Kimi K2 Thinking 就像是那个能够独立完成所有步骤的超级研究员，它在每一步之间都能保持清晰的逻辑，连贯地思考，直到问题被解决。这种能力，让 AI 从一个“问答机器”蜕变成一个真正的“问题解决者”。不只是说说而已：惊人的基准测试表现当然，光有概念是不够的，性能才是硬道理。Kimi K2 Thinking 在多个行业顶尖的基准测试中，不仅刷新了纪录，更在某些方面远超前人。像专家一样思考：代理推理能力在一个名为“人类最后的考试 (Humanity’s Last Exam, HLE)”的测试中，Kimi K2 Thinking 取得了 44.9% 的高分。这个测试涵盖了超过 100 个专业学科的专家级问题，其难度可想而知。更具体地说，在一次演示中，Kimi 成功解决了一个博士级别的数学难题，整个过程穿插了 23 次推理与工具调用。它展现了深度、结构化的推理能力，证明了其处理长远规划问题的强大潜力。不只是写代码，更是软件开发：代理编码能力对于开发者来说，这绝对是个好消息。Kimi K2 Thinking 在编码和软件开发任务上表现突出：在 SWE-Bench Verified 测试中获得 71.3% 的分数。在 SWE-Multilingual 测试中获得 61.1% 的分数。这代表它不仅仅能写几行代码，更能理解复杂的开发流程。例如，在一个演示中，仅仅通过一个提示，Kimi K2 Thinking 就成功构建出一个功能齐全、类似 Microsoft Word 的网页编辑器“WebWord”。这种从概念到产品的转化能力，实在令人印象深刻。

Nov 7, 2025 Read →

K …

tool

Kimi Linear 横空出世：Moonshot AI 如何在效能与效率之间取得完美平衡？

深入探讨 Moonshot AI 推出的 Kimi Linear 架构，这项混合式线性注意力技术不仅在长短文本任务中超越了传统模型，更将解码效率提升数倍，为大型语言模型的未来发展指明了新方向。** 百万 token 时代的「甜蜜负担」大型语言模型（LLM）正以前所未有的速度进化，从几千 token 的上下文长度，一路狂奔到如今动辄百万 token 的惊人水准。这无疑是个令人兴奋的进展，代表模型能够处理整本书、完整的代码库或是冗长的财报文件。但这份「甜蜜」的背后，却隐藏着巨大的运算「负担」。你晓得吗？传统 Transformer 架构的核心——Softmax 注意力机制——在处理长文本时，其运算复杂度和内存消耗会以二次方速度飙升。这就像你的电脑内存，每增加一点处理的数据，占用空间就呈指数级增长。其中，被称为「KV 缓存」的机制尤其占用资源，它会随着输入序列的增长而线性膨胀，成为长文本推理的主要瓶颈。所以，问题来了：我们能不能拥有一款既能理解百万字天书，又能像处理短信一样迅速回应的模型？这似乎是个鱼与熊掌不可兼得的难题。 Kimi Linear：不只是「又一个」新架构就在大家努力寻找答案时，开发出 Kimi 智能助理的 Moonshot AI（月之暗面）团队，带着一份令人惊艳的技术报告出现了。他们介绍了一种全新的架构——Kimi Linear。这不是又一个微幅改进的模型。Kimi Linear 是一种混合式的线性注意力架构，它首次在各种情境下——无论是短文本理解、长文本推理，还是复杂的强化学习任务——于公平的比较基准上，全面超越了传统的全注意力（Full Attention）模型。听起来有点抽象？让我们看看实际数据：在处理 100 万 token 长度的上下文时，Kimi Linear 的解码吞吐量（也就是速度）提升了 6.3 倍，同时还能将关键的 KV 缓存使用量减少 75%。这意味着，它不仅跑得更快，还吃得更少。这到底是怎么做到的？核心魔法：更精细的 Kimi Delta Attention (KDA) Kimi Linear 的秘密武器，在于其核心模块——Kimi Delta Attention (KDA)。我们可以把传统的线性注意力想象成一个记忆力很好但有点粗糙的大脑，它会尽力记住所有事情，却不太懂得如何「选择性遗忘」。而 KDA 就像一个经过精密训练、拥有细致记忆管理能力的大脑。 KDA 扩展了现有的 Gated DeltaNet 技术，引入了一种更细腻的「通道式门控机制」（channel-wise gating）。简单来说，它不是对所有信息一视同仁地决定保留或遗忘，而是能为每一个特征维度（可以理解为信息的不同方面）设定独立的遗忘率。这让模型能更精准地控制记忆，丢掉无关紧要的杂讯，同时牢牢记住关键信息。更棒的是，KDA 在设计上就充分考虑了硬件效率。透过一个特制的块状并行算法，它的运算效率比通用的 DPLR（Diagonal-Plus-Low-Rank）方法提升了将近 100%，在保证性能的同时，也把速度拉满了。强强联手：3:1 的黄金混合比例尽管 KDA 已经非常强大，但单纯的线性注意力在某些极端精细的信息检索任务上，理论上仍有其极限。为了解决这个问题，Kimi Linear 采用了一种巧妙的混合策略。

Oct 31, 2025 Read →