阿里巴巴開源 Qwen3-Next：800億參數模型，成本降90%、速度飆10倍的AI新巨獸

阿里巴巴開源了最新的 Qwen3-Next-80B-A3B 模型，這不僅僅是一次普通的更新。這款擁有 800 億參數的龐然大物，透過創新的混合專家 (MoE) 架構，實現了訓練成本降低 90%、推理速度提升 10 倍的驚人效率。本文將深入探討其背後的技術、驚人的性能表現，以及它將如何改變 AIGC 的遊戲規則。

在人工智慧（AI）的競賽中，大家似乎總有個迷思：模型越大，就一定越強大。但隨之而來的是天文數字般的訓練成本和緩慢的運算速度，這讓許多開發者和企業望而卻步。如果有一種模型，既擁有巨大規模的智慧，又兼具輕量級模型的效率呢？

聽起來很不可思議，對吧？但阿里巴巴最新開源的 Qwen3-Next-80B-A3B 模型，似乎真的做到了。

這款模型標誌著阿里在 AIGC（人工智慧生成內容）領域的又一次重要突破，它不僅在參數規模上令人印象深刻，更在底層架構上進行了根本性的創新。

什麼是 Qwen3-Next？不止是參數大而已

第一眼看到「800億參數」，你可能會倒抽一口氣，心想這得要多大的運算資源才跑得動？

但這正是 Qwen3-Next 最巧妙的地方。它的總參數雖然高達 800 億，但在實際進行推理運算時，每個 token（可以理解為一個詞或字元）只會「喚醒」其中的 30 億個參數。

這是什麼概念？打個比方，這就像你擁有了一座藏書 800 億冊的巨型圖書館，但當你需要回答一個問題時，一位超級聰明的圖書館管理員會瞬間幫你找出最相關的 30 億冊書，而不是讓你大海撈針。這種「按需取用」的模式，帶來了革命性的效率提升。

根據官方數據，這種設計讓 Qwen3-Next 的訓練成本相較於其前代、規模更小的 Qwen3-32B 模型，大幅下降了驚人的 90%，而推理效率卻反過來提升了整整 10 倍！

混合專家 (MoE) 架構：效率背後的魔法

這一切效率提升的背後，都指向一個核心技術：混合專家架構 (Mixture of Experts, MoE)。

MoE 並不是一個全新的概念，但 Qwen3-Next 將其運用得出神入化。它內部設置了大量的「專家」（在這個模型中多達 512 個），每個專家都擅長處理特定類型的任務或知識。當模型接收到一個指令時，一個「門控網路」會聰明地判斷該將這個任務分配給哪些專家來處理。

Qwen3-Next 的創新之處在於它結合了 門控 DeltaNet 和 門控注意力機制。這種混合設計克服了傳統模型在處理超長文本時速度變慢、效果變差的通病。它既保證了閃電般的處理速度，又維持了強大的上下文學習能力。

簡單來說，它在不犧牲性能的前提下，最大化地利用了每一分運算資源。

性能對決：Qwen3-Next 的實力有多強？

說了這麼多效率，那麼性能呢？會不會為了速度而犧牲了智慧？恰恰相反，Qwen3-Next 的表現強悍得令人驚訝。

從上方的數據圖表可以看出，無論是在 MMLU（綜合知識評測）、GSM8K（數學推理）還是 CRUX-O（程式碼生成）等關鍵基準測試中，Qwen3-Next-80B 的表現都全面超越了傳統的密集模型 Qwen3-32B。

更讓人矚目的是，在 AIMO25 和 LiveBench 等更具挑戰性的評測中，800 億參數的 Qwen3-Next（Instruct 版本）其表現竟然能與阿里自家的 2350 億參數旗艦模型 Qwen3-235B 相媲美，甚至在某些項目上不分軒輊。這證明了其架構的先進性——用更少的活化參數，達成了頂級模型的性能水準。

不僅如此，官方更指出，Qwen3-Next 在特定思考任務上的表現，甚至超越了谷歌最新的 Gemini-2.5-Flash 思考模型。

Benchmark	Qwen3-Next-80B-A3B-Instruct	Qwen3-235B-A22B-Instruct-2507	Qwen3-32B Non-thinking	Qwen3-30B-A3B-Instruct-2507
SuperGPQA	58.8	62.6	42.2	53.4
AIME2.5	69.5	70.3	20.2	61.3
LiveCodeBench v6 (25.02-25.05)	56.6	51.8	29.1	43.2
Arena-Hard v2	82.7	79.2	34.1	69.0
LiveBench (20241125)	75.8	75.4	59.8	69.0

	Qwen3-30B-A3B Base	Qwen3-32B Base	Qwen3-Next-80B-A3B Base	Qwen3-235B-A22B Base
Architecture	MoE	Dense	MoE	MoE
# Total Params	30B	32B	80B	235B
# Activated Params	3B	32B	3B	22B
General Tasks
MMLU	81.38	83.61	84.72	87.81
MMLU-Redux	81.17	83.41	83.80	87.40
MMLU-Pro	61.49	65.54	66.05	68.18
SuperGPQA	35.72	39.78	41.52	44.06
BBH	81.54	87.38	87.13	88.87
Math, STEM & Coding Tasks
GPQA	43.94	49.49	43.43	47.47
GSM8K	91.81	93.40	90.30	94.39
MATH	59.04	61.62	62.36	71.84
EvalPlus	71.45	72.05	72.89	77.60
CRUX-O	67.20	72.50	74.25	79.00
Multilingual Tasks
MGSM	79.11	83.06	81.28	83.53
MMLU	81.46	83.83	84.43	86.70
INCLUDE	67.00	67.87	69.79	73.46

不只是快，更是聰明：多 Token 預測與長文本處理

Qwen3-Next 的另一個殺手鐧是引入了 多 token 預測機制。傳統模型通常是一個字一個字地生成內容，而 Qwen3-Next 則可以「預判」接下來可能出現的多個詞語，這在「投機解碼」這類加速技術中表現極佳，進一步提升了內容生成的速度。

此外，它在處理超長文本（例如 32K 以上的上下文）時的表現尤其突出。當許多模型面對長篇大論的文章或程式碼就開始變得遲鈍時，Qwen3-Next 依然能保持高效的吞吐量，速度優勢可達 7 到 10 倍。這對於需要深度文本分析、長篇報告摘要等應用場景來說，無疑是巨大的福音。

這對我們意味著什麼？

Qwen3-Next 的開源，不僅是技術圈的一則新聞，它更可能帶來實質的改變：

對開發者而言： 這意味著可以用更低的成本、更親民的硬體，去接觸和使用一個性能接近頂級旗艦的模型。這大大降低了 AI 應用的開發門檻，讓更多創新的想法得以實現。
對企業而言： 部署 AIGC 服務的成本將顯著降低，同時能為用戶提供更快速、更流暢的互動體驗。處理複雜的內部文件、分析市場報告、生成程式碼等任務，都將變得更加高效。

總而言之，Qwen3-Next 的出現證明了 AI 的未來發展方向，不單純是盲目地堆砌參數，更是追求架構的智慧與效率。它在規模、性能和成本之間找到了一個絕佳的平衡點，為整個 AI 社群帶來了新的可能性。

想親自體驗 Qwen3-Next 的威力嗎？

線上體驗: https://chat.qwen.ai/
開源位址 (Hugging Face): https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
官方部落格: https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd

常見問題解答 (FAQ)

Q1: Qwen3-Next 和其他大型語言模型最大的不同是什麼？

最大的不同在於它的「稀疏活化」特性。雖然它擁有 800 億的總參數，但在處理任何任務時只會動用其中的一小部分（30 億）。這使得它在保持頂級模型知識廣度的同時，又具備了小型模型的運行效率，完美平衡了性能與成本。

Q2: 什麼是混合專家 (MoE) 模型，它為什麼這麼高效？

您可以將 MoE 模型想像成一個由多位專家組成的團隊。當一個複雜問題進來時，系統會自動指派最擅長該領域的幾位專家來協同解決，而不是讓所有專家（所有參數）都一起上。這種分工合作的方式，自然就大大提升了處理效率和資源利用率。

Q3: 我需要很強的硬體才能運行 Qwen3-Next 嗎？

相較於同等級別的密集型模型（例如需要驅動數百億甚至上千億參數的模型），Qwen3-Next 對硬體的要求要友好得多。因為它的活化參數少，推理所需的計算資源和記憶體佔用都相對較低，這讓它更有可能在消費級或企業級的標準硬體上運行。

Q4: Qwen3-Next 適合用在哪些應用場景？

它幾乎適用於所有 AIGC 領域，尤其擅長需要處理大量文本的任務，例如：

長篇文件分析與摘要： 快速閱讀和總結研究論文、法律合約、財務報告。
企業知識庫問答： 建立一個能快速回應員工問題的內部智慧助理。
複雜的程式碼生成與除錯： 輔助開發人員編寫和優化程式碼。
高品質的內容創作： 撰寫行銷文案、技術文件和創意寫作。

分享至:

Featured Partners

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

Recommended for You

G …

tool

Google Gemma 4 完整解析：跨越硬體限制、輕量與強大兼備的最強開源模型

Google Gemma 4 完整解析：跨越硬體限制，輕巧與運算力兼具的開源 AI 模型想在智慧型手機或邊緣設備上流暢運行高階 AI 嗎？Google 最新推出的 Gemma 4 模型帶來了效能與資源消耗的絕佳平衡。本文詳細解析 E2B、E4B、26B 與 31B 四大版本差異，探討其原生音訊輸入功能、超長文本處理能力，以及如何透過友善的 Apache 2.0 授權條款，將開源技術無縫應用於邊緣運算與雲端工作站。當 AI 技術每天都在推陳出新，開發者面臨的挑戰也日益嚴苛。過去只要能讓機器順利回答問題就足以令人驚豔。現在大家追求的是更聰明的邏輯推演與自主執行任務的能力。你知道嗎？要在有限的硬體資源下實現這些進階功能，向來是個令人頭痛的難題。為了解決這個痛點，Google 正式釋出了迄今為止最智能的開源模型 Gemma 4。這款模型建立在與 Gemini 3 相同的世界級研究基礎上。它特別針對進階推理與代理工作流程 (Agentic workflows) 進行了最佳化。最棒的一點在於，Gemma 4 全面採用了對商業極度友善的 Apache 2.0 授權條款。這賦予了企業與開發者百分之百的資料掌控權與數位主權。以下將針對 Gemma 4 的核心特色進行詳盡拆解，帶領大家了解這款模型如何跨越硬體的藩籬。四大版本全解析：從輕量級設備到雲端工作站為了適應截然不同的硬體環境，Gemma 4 這次端出了四種尺寸的變體。說實話，這是一個非常聰明的做法。畢竟每位開發者的部署環境都不一樣。無論是要在 Android 手機上進行本地端運算，還是要在高階 GPU 伺服器上進行微調，這裡都有對應的解方。

Apr 3, 2026 Read →

K …

tool

Kimi K2.5 模型解析：開源界的新標竿，視覺程式碼與多代理協作的實力展現

Moonshot AI 發布最新開源模型 Kimi K2.5，具備原生多模態能力與強大的「蜂群代理」技術。本文將詳細剖析其在視覺程式碼生成、多代理協作及複雜辦公任務上的突破性表現，並探討其如何以更低的成本達成超越單一代理的效率。技術圈最近有個令人興奮的消息，Moonshot AI 正式推出了 Kimi K2.5。這不僅僅是一個普通的模型更新，它是目前最強大的開源模型之一。經過大約 15T（兆）個混合視覺與文本 Token 的持續預訓練，K2.5 在程式碼編寫、視覺理解以及代理協作（Agent Swarm）方面，都展現了令人印象深刻的實力。對於開發者和專業工作者來說，這意味著什麼？簡單來說，它能看得懂你給的影片，寫出有美感的網頁，甚至能指揮一百個 AI 小幫手同時幫你查資料。我們這就來看看 Kimi K2.5 的幾個核心亮點。視覺與程式碼的完美融合：懂美感的工程師以前我們讓 AI 寫網頁，通常只能得到結構正確但外觀樸素的程式碼。但 Kimi K2.5 打破了這個限制。它內建了原生的多模態能力，這讓它在處理「視覺程式碼」（Coding with Vision）時顯得游刃有餘。你可以試著把一個網站的操作影片丟給它，或者給它一張設計草圖，K2.5 能夠理解其中的視覺邏輯、佈局互動，甚至是動畫效果。它不再只是單純地翻譯文字指令，而是像一個有經驗的前端工程師，能夠理解「美感」與「使用者體驗」。舉個例子，如果你想要一個類似馬蒂斯（Matisse）畫作風格的網頁，K2.5 不僅能生成程式碼，還能透過視覺除錯（Visual Debugging）來自我修正，確保最終呈現的效果符合藝術美感。這種從影片或圖像直接轉換為互動式介面、且包含豐富滾動特效的能力，大幅降低了將創意轉化為成品的門檻。蜂群代理系統：以一當百的並行處理能力這大概是 K2.5 最具科幻感的功能了。面對複雜的難題，單打獨鬥往往效率低落。Kimi K2.5 引入了「蜂群代理」（Agent Swarm）的概念。這不是單純的多工處理，而是一個能夠自我指揮的協作系統。想像一下，你需要調查一百個不同領域的利基市場。傳統的 AI 代理可能需要一步一步、一個一個去搜尋，耗時且容易出錯。但在 K2.5 的架構下，主代理（Orchestrator）會自動將任務拆解，並指揮多達 100 個子代理（Sub-agents）同時開工。這些子代理就像是一個訓練有素的團隊，並行執行多達 1,500 次的工具調用。這帶來了什麼改變？速度提升：相較於單一代理模式，執行時間縮短了 4.5 倍。自動編排：使用者不需要預先定義工作流程，K2.5 會根據任務需求，動態生成並管理這些子代理。這種並行處理能力，讓 Kimi K2.5 在處理廣度搜尋（Wide Search）這類任務時，展現出驚人的效率。辦公生產力的實質躍升：解決真實世界的繁重工作在實際的辦公場景中，我們面對的往往不是簡單的問答，而是高密度、長篇幅的資料處理。Kimi K2.5 特別針對這一點進行了優化。

Jan 29, 2026 Read →

S …

tool

StepFun Step-Audio-R1.1 登場：超越 GPT-4o 與 Gemini 的語音推理新霸主

在語音 AI 的競賽場上，大家總是習慣盯著 OpenAI 或 Google 的最新動態，期待他們端出下一個震撼世界的產品。但就在最近，一個開源權重模型無聲無息地爬上了排行榜的頂端，讓許多科技巨頭感到汗顏。這款名為 Step-Audio-R1.1 的模型，由 StepFun（階躍星辰）開發，它不僅在語音推理能力上刷新了紀錄，更在即時互動的流暢度上展現了驚人的實力。如果您以為這只是另一個普通的語音模型，那可就大錯特錯了。它在 Artificial Analysis 的語音推理基準測試（Speech Reasoning benchmark）中，以 96.4% 的準確率拿下了冠軍寶座，直接將 Grok、Gemini 乃至 GPT-Realtime 甩在身後。這究竟是怎麼做到的？讓我們來拆解這項技術背後的秘密。語音推理的新高度：數據不會說謊讓我們先來看看最直觀的數據表現。根據 Artificial Analysis 的 Big Bench Audio 數據集測試結果，Step-Audio-R1.1 展現了壓倒性的優勢。在這份榜單上，排在第二名的 Grok Voice Agent 成績是 92.3%，而廣受關注的 GPT-4o Realtime Preview 則落在 66% 到 68% 之間。這意味著什麼？這代表在處理複雜的語音指令、理解語境以及進行邏輯推演時，Step-Audio-R1.1 的表現比目前市面上昂貴的商業模型還要精準。這並非單純的語音轉文字再處理，而是真正的「端到端」（End-to-End）語音原生推理。模型直接聽懂了聲音中的邏輯，而不是依賴文字轉錄的中介。對於開發者與研究人員來說，這是一個激動人心的消息，尤其是當您可以在 Hugging Face 下載 Step-Audio-R1.1 的權重，親自驗證這項技術時，這種震撼感會更加真實。速度與智慧的博弈：打破傳統權衡長期以來，AI 領域存在一個難以忽視的矛盾：想要模型更聰明，通常就得犧牲反應速度；想要反應快，往往就得犧牲推理的深度。但在即時語音對話中，延遲是使用者體驗的殺手。沒人喜歡對著一個還要思考五秒鐘才能回話的 AI 聊天，那種尷尬的沉默會毀掉所有的沉浸感。 Step-Audio-R1.1 透過一種被稱為「思維配速說話」（Mind-Paced Speaking）的技術，巧妙地解決了這個難題。您可以把它想像成一位經驗豐富的演講者，他們不需要停下來長時間思考，而是能夠邊說邊想，組織語言的同時也在進行深層邏輯推演。這得益於其獨特的雙腦架構（Dual-Brain Architecture）：構思大腦（Formulation Brain）：負責高層次的邏輯推理與內容規劃。表達大腦（Articulation Brain）：專注於語音生成的流暢度與自然度。這種分工合作的機制，讓模型能夠在輸出的同時進行「思維鏈」（Chain-of-Thought）推理。結果就是，它既能保持極低的延遲，又能處理複雜的任務，完全不需要在速度與智慧之間做取捨。想體驗這種流暢感的朋友，可以前往 ModelScope 的 Demo 頁面試試看。

Jan 16, 2026 Read →