AI 領域的競賽從未停歇!NVIDIA 近日發布了全新的 Nemotron Nano 2 系列模型,採用創新的 Mamba-Transformer 混合架構。不僅在複雜推理任務上超越同級對手,更實現了高達 6 倍的吞吐量,同時還能將 128K 的長文本推理壓縮到單張 GPU 上運行。更令人興奮的是,NVIDIA 史無前例地開源了其高達 6.6 兆 token 的預訓練資料集,為整個 AI 社群注入了強大動能。
AI 的發展速度快得讓人幾乎喘不過氣,正當大家還在討論各種模型的優劣時,NVIDIA 又投下了一顆震撼彈。這次他們帶來的不只是一個新模型,而是一個全新的生態系——NVIDIA Nemotron Nano 2 系列,以及其背後龐大的預訓練資料集。
簡單來說,這不僅是技術上的躍進,更是對整個開源社群的巨大貢獻。讓我們來看看,這次 NVIDIA 到底端出了什麼好料。
Nemotron Nano 2 到底強在哪?不只快,還很準!
如果你覺得現有的語言模型在處理複雜任務時總是有點慢,或者對硬體的要求太高,那麼 Nemotron Nano 2 絕對會讓你眼睛一亮。
這次推出的核心模型 NVIDIA-Nemotron-Nano-9B-v2,在多項複雜的推理基準測試中,其表現都足以媲美甚至超越了市面上頂尖的同級開源模型,例如 Qwen3-8B。從下圖的比較中可以清楚看到,無論是在數學(AIME24, AIME25)、科學(GPQA-D)還是長文本理解(RULER 128k)等領域,Nemotron Nano 2 的準確率都保持領先。
但,真正的亮點在於右側的「吞吐量」(Throughput)測試。在處理長序列文本時,Nemotron Nano 2 的速度最高可達 Qwen3-8B 的 6.3 倍!
這是什麼概念?這意味著開發者可以用更低的成本、更短的時間來完成推理任務,對於需要即時反應的應用場景(例如:聊天機器人、程式碼即時生成)來說,這簡直是天大的好消息。
這一切都要歸功於其創新的 Mamba-Transformer 混合架構。你可以把它想像成結合了兩種引擎的優點:Transformer 架構擅長深度推理,如同強大的分析大腦;而 Mamba 架構則以其高效率和處理長序列的能力見長,就像一條暢通無阻的高速公路。兩者結合,讓模型既聰明又快速。
不只是模型,更是資料的黃金寶庫
過去,頂尖 AI 模型的訓練資料集通常是各家公司的最高機密。但這次,NVIDIA 做了一個驚人的決定:他們開源了絕大部分用於預訓練的資料集——Nemotron-Pre-Training-Dataset-v1。
這個資料集規模有多大?足足 6.6 兆(Trillion)個 token!內容涵蓋了高品質的網頁爬取資料、數學、程式碼、以及多種語言的問答數據。NVIDIA 將其整理成四大類:
- Nemotron-CC-v2: 包含大量經過處理的網頁資料,並使用合成數據技術生成了翻譯成 15 種語言的問答對,大幅強化了模型的多語言能力。
- Nemotron-CC-Math-v1: 專注於數學的資料集。NVIDIA 開發了一套獨特的流程,能準確地從網頁中提取並保留數學方程式和程式碼片段,解決了過去資料集經常遺失或損毀數學公式的痛點。
- Nemotron-Pretraining-Code-v1: 來自 GitHub 的大規模程式碼資料集,經過多階段的去重、授權過濾和品質檢查,確保了程式碼的實用性與合規性。
- Nemotron-Pretraining-SFT-v1: 一個合成生成的資料集,涵蓋了 STEM(科學、技術、工程、數學)、學術、推理和多語言等多個領域,專門用來提升模型的指令遵循和推理能力。
這個資料集的釋出,不僅讓研究人員可以重現和驗證 NVIDIA 的成果,更為整個 AI 社群提供了一個無價的資源,無疑將加速未來 AI 技術的創新。
技術揭秘:魔法背後的秘密
這麼強大的模型當然不是憑空誕生的。NVIDIA 在技術報告中也分享了一些關鍵的訓練亮點:
- 高效的預訓練: 基礎模型 Nemotron-Nano-12B-v2-Base 是在超過 20 兆個 token 上使用 FP8 精度進行訓練的,並透過一個持續的預訓練階段,使其在不犧牲其他性能的前提下,具備了處理 128k 長文本的能力。
- 精細的後期調校: 模型經過了監督式微調(SFT)、群體相對策略優化(GRPO)、直接偏好優化(DPO)以及人類回饋強化學習(RLHF)等多種技術的綜合調校,確保其能準確理解並執行複雜指令。
- 極致的壓縮技術: 最令人驚豔的是,NVIDIA 透過基於 Minitron 的壓縮策略,成功地將模型壓縮到可以在單張 NVIDIA A10G GPU 上處理 128k token 的長文本推理。這大大降低了部署高效能大型語言模型的硬體門檻。
如何開始使用 Nemotron Nano 2?
NVIDIA 已經將三款核心模型發布在 Hugging Face 上,任何人都可以下載使用:
- NVIDIA-Nemotron-Nano-9B-v2:經過完整對齊和修剪的最終推理模型,性能最強。
- NVIDIA-Nemotron-Nano-9B-v2-Base:經過修剪的基礎模型。
- NVIDIA-Nemotron-Nano-12B-v2-Base:未經對齊或修剪的原始基礎模型。
對於希望深入了解所有技術細節的研究人員和開發者,NVIDIA 也提供了完整的技術報告供參考。
總結來說,NVIDIA Nemotron Nano 2 的推出,不僅在模型性能上設立了新的標竿,其開放資料的策略更是為 AI 的未來發展鋪平了道路。一個更快、更準確、也更親民的 AI 時代,正加速到來。
常見問題解答 (FAQ)
Q1: NVIDIA Nemotron Nano 2 到底是什麼? A: Nemotron Nano 2 是 NVIDIA 推出的一系列高效能、高準確率的混合 Mamba-Transformer 架構語言模型。它們在保持強大推理能力的同時,大幅提升了運算速度和效率。
Q2: Nemotron Nano 2 比其他模型快在哪裡? A: 由於採用了創新的混合架構,Nemotron Nano 2 在處理長文本序列時的吞吐量(Throughput)顯著提高,在特定測試中最高可達同級模型的 6.3 倍,這意味著更快的反應時間和更低的運算成本。
Q3: Nemotron 預訓練資料集的獨特之處是什麼?
A: 這是業界首次有領導廠商開源如此大規模(6.6 兆 token)的高品質預訓練資料。其中最特別的是其 Nemotron-CC-Math-v1 子集,它透過獨特技術流程,成功地保留了網頁中的數學公式和程式碼,品質遠超以往的資料集。
Q4: 我需要什麼樣的硬體才能運行這個模型? A: 根據 NVIDIA 的報告,經過壓縮後的 Nemotron Nano 2 模型,能夠在單張 NVIDIA A10G GPU(配備 22 GiB 記憶體)上處理高達 128k token 長度的文本推理,這極大地降低了高效能 AI 的硬體門檻。


