AI 领域的竞赛从未停歇!NVIDIA 近日发布了全新的 Nemotron Nano 2 系列模型,采用创新的 Mamba-Transformer 混合架构。不仅在复杂推理任务上超越同级对手,更实现了高达 6 倍的吞吐量,同时还能将 128K 的长文本推理压缩到单张 GPU 上运行。更令人兴奋的是,NVIDIA 史无前例地开源了其高达 6.6 兆 token 的预训练数据集,为整个 AI 社群注入了强大动能。
AI 的发展速度快得让人几乎喘不过气,正当大家还在讨论各种模型的优劣时,NVIDIA 又投下了一颗震撼弹。这次他们带来的不只是一个新模型,而是一个全新的生态系——NVIDIA Nemotron Nano 2 系列,以及其背后庞大的预训练数据集。
简单来说,这不仅是技术上的跃进,更是对整个开源社群的巨大贡献。让我们来看看,这次 NVIDIA 到底端出了什么好料。
Nemotron Nano 2 到底强在哪?不只快,还很准!
如果你觉得现有的语言模型在处理复杂任务时总是有点慢,或者对硬件的要求太高,那么 Nemotron Nano 2 绝对会让你眼睛一亮。
这次推出的核心模型 NVIDIA-Nemotron-Nano-9B-v2,在多项复杂的推理基准测试中,其表现都足以媲美甚至超越了市面上顶尖的同级开源模型,例如 Qwen3-8B。从下图的比较中可以清楚看到,无论是在数学(AIME24, AIME25)、科学(GPQA-D)还是长文本理解(RULER 128k)等领域,Nemotron Nano 2 的准确率都保持领先。
但,真正的亮点在于右侧的“吞吐量”(Throughput)测试。在处理长序列文本时,Nemotron Nano 2 的速度最高可达 Qwen3-8B 的 6.3 倍!
这是什么概念?这意味着开发者可以用更低的成本、更短的时间来完成推理任务,对于需要即时反应的应用场景(例如:聊天机器人、程式码即时生成)来说,这简直是天大的好消息。
这一切都要归功于其创新的 Mamba-Transformer 混合架构。你可以把它想像成结合了两种引擎的优点:Transformer 架构擅长深度推理,如同强大的分析大脑;而 Mamba 架构则以其高效率和处理长序列的能力见长,就像一条畅通无阻的高速公路。两者结合,让模型既聪明又快速。
不只是模型,更是资料的黄金宝库
过去,顶尖 AI 模型的训练数据集通常是各家公司的最高机密。但这次,NVIDIA 做了一个惊人的决定:他们开源了绝大部分用于预训练的数据集——Nemotron-Pre-Training-Dataset-v1。
这个数据集规模有多大?足足 6.6 兆(Trillion)个 token!内容涵盖了高品质的网页爬取资料、数学、程式码、以及多种语言的问答数据。NVIDIA 将其整理成四大类:
- Nemotron-CC-v2: 包含大量经过处理的网页资料,并使用合成数据技术生成了翻译成 15 种语言的问答对,大幅强化了模型的多语言能力。
- Nemotron-CC-Math-v1: 专注于数学的数据集。NVIDIA 开发了一套独特的流程,能准确地从网页中提取并保留数学方程式和程式码片段,解决了过去数据集经常遗失或损毁数学公式的痛点。
- Nemotron-Pretraining-Code-v1: 来自 GitHub 的大规模程式码数据集,经过多阶段的去重、授权过滤和品质检查,确保了程式码的实用性与合规性。
- Nemotron-Pretraining-SFT-v1: 一个合成生成的资料集,涵盖了 STEM(科学、技术、工程、数学)、学术、推理和多语言等多个领域,专门用来提升模型的指令遵循和推理能力。
这个数据集的释出,不仅让研究人员可以重现和验证 NVIDIA 的成果,更为整个 AI 社群提供了一个无价的资源,无疑将加速未来 AI 技术的创新。
技术揭秘:魔法背后的秘密
这么强大的模型当然不是凭空诞生的。NVIDIA 在技术报告中也分享了一些关键的训练亮点:
- 高效的预训练: 基础模型 Nemotron-Nano-12B-v2-Base 是在超过 20 兆个 token 上使用 FP8 精度进行训练的,并透过一个持续的预训练阶段,使其在不牺牲其他性能的前提下,具备了处理 128k 长文本的能力。
- 精细的后期调校: 模型经过了监督式微调(SFT)、群体相对策略优化(GRPO)、直接偏好优化(DPO)以及人类回馈强化学习(RLHF)等多种技术的综合调校,确保其能准确理解并执行复杂指令。
- 极致的压缩技术: 最令人惊艳的是,NVIDIA 透过基于 Minitron 的压缩策略,成功地将模型压缩到可以在单张 NVIDIA A10G GPU 上处理 128k token 的长文本推理。这大大降低了部署高效能大型语言模型的硬体门槛。
如何开始使用 Nemotron Nano 2?
NVIDIA 已经将三款核心模型发布在 Hugging Face 上,任何人都可以下载使用:
- NVIDIA-Nemotron-Nano-9B-v2:经过完整对齐和修剪的最终推理模型,性能最强。
- NVIDIA-Nemotron-Nano-9B-v2-Base:经过修剪的基础模型。
- NVIDIA-Nemotron-Nano-12B-v2-Base:未经对齐或修剪的原始基础模型。
对于希望深入了解所有技术细节的研究人员和开发者,NVIDIA 也提供了完整的技术报告供参考。
总结来说,NVIDIA Nemotron Nano 2 的推出,不仅在模型性能上设立了新的标竿,其开放资料的策略更是为 AI 的未来发展铺平了道路。一个更快、更准确、也更亲民的 AI 时代,正加速到来。
常见问题解答 (FAQ)
Q1: NVIDIA Nemotron Nano 2 到底是什么? A: Nemotron Nano 2 是 NVIDIA 推出的一系列高效能、高准确率的混合 Mamba-Transformer 架构语言模型。它们在保持强大推理能力的同时,大幅提升了运算速度和效率。
Q2: Nemotron Nano 2 比其他模型快在哪里? A: 由于采用了创新的混合架构,Nemotron Nano 2 在处理长文本序列时的吞吐量(Throughput)显著提高,在特定测试中最高可达同级模型的 6.3 倍,这意味着更快的反应时间和更低的运算成本。
Q3: Nemotron 预训练数据集的独特之处是什么?
A: 这是业界首次有领导厂商开源如此大规模(6.6 兆 token)的高品质预训练数据。其中最特别的是其 Nemotron-CC-Math-v1 子集,它透过独特技术流程,成功地保留了网页中的数学公式和程式码,品质远超以往的数据集。
Q4: 我需要什么样的硬体才能运行这个模型? A: 根据 NVIDIA 的报告,经过压缩后的 Nemotron Nano 2 模型,能够在单张 NVIDIA A10G GPU(配备 22 GiB 记忆体)上处理高达 128k token 长度的文本推理,这极大地降低了高效能 AI 的硬体门槛。


