MiniMax-M3 登場：4280 億參數、100 萬 Token 長上下文，開源 AI 模型全面解析

MiniMax-M3 登場

GLang、vLLM 或是 Tr

tool

MiniMax-M3 登場：4280 億參數、100 萬 Token 長上下文，開源 AI 模型全面解析

2026-06-15

MiniMax-M3 登場：4280 億參數與百萬 Token 的巧妙平衡

MiniMaxAI 最新開源的 MiniMax-M3 具備 4280 億參數，支援高達 100 萬 Token 的超長上下文。透過獨創的 MSA 稀疏注意力機制，大幅降低長文運算成本。本文帶您全面解析其原生多模態與雙推理模式的技術亮點。

隨著人工智慧應用場景越來越複雜，市場對語言模型的要求也水漲船高。大家不再只滿足於讓系統讀懂簡單的句子，反而開始期望它能看完一整部影片，或是消化高達數十萬字的技術文件。這個挑戰其實相當艱鉅。不過近期開源社群出現了一個讓人眼睛一亮的震撼彈。MiniMaxAI 團隊推出的 MiniMax-M3 正式發布。

這是一個總參數高達 4280 億的龐然大物。你知道嗎？有些開發者一聽到 4280 億這個數字，第一反應大概是擔心一般伺服器根本跑不動。不過先別急著關掉網頁。MiniMax-M3 雖然體積龐大，但得益於混合專家模型架構，它在實際運行生成時，每次僅會啟動約 230 億個活躍參數。這種巧妙的設計兼顧了知識庫的廣泛程度，同時也讓硬體負擔維持在非常合理的範圍內。這也是它一經推出就受到工程師矚目的原因。

到底什麼是原生多模態？

大家都知道，現在市面上有各式各樣的多模態模型。許多常見的做法是先讓系統學會看懂純文字，後續才外接視覺或聽覺模組。這就像是一個人先學會了母語，長大後再去補習班死背外語單字一樣，資訊轉換上總是會有一層隔閡。

MiniMax-M3 走了一條截然不同且更扎實的路線。它打從訓練的最一開始，就直接將文字、圖片和影片混合在一起進行訓練。沒錯，從第一步開始就是混合訓練。這種原生多模態的設計，讓系統在底層邏輯中就能建立極為透徹的語意連結。當系統在分析一段夾雜著程式碼、架構圖與解說影片的複雜專案時，能展現出極其自然的理解力。它完全打破了傳統拼接模型那種生硬的限制。

拯救百萬長文的秘密武器

聊完多模態，接下來要提一個技術圈非常關注的痛點。過去的技術架構在處理超長文本時，往往會遇到效能瓶頸。當系統需要處理高達 100 萬 Token 的上下文時，運算量會呈現指數級別的爆炸增長。系統很容易因此崩潰或變得極度緩慢。

應對長文本運算昂貴又緩慢的痛點，開發團隊獨家導入了一項名為「MiniMax 稀疏注意力 (MSA)」的技術。這項技術到底解決了什麼問題？讀者不妨這樣想像，當系統面對一本百萬字的巨著時，它不需要從頭到尾死盯著每一個字。相反地，它可以非常聰明地挑出重點段落來讀。透過演算法的最佳化，MSA 大幅縮減了運算量與記憶體佔用。

根據官方數據，M3 在處理 100 萬 Token 時，預填充速度比上一代 M2 快了 9 倍，解碼更是快了 15 倍。最讓人吃驚的是，單一 Token 的運算成本竟然降到了以往的二十分之一。說真的，這對於需要長時間協作的專案來說，絕對是一大福音。

像人一樣切換節奏：雙推理模式

人類大腦在面對不同情境時，運作模式會自動調整。解數學題需要深思熟慮，而日常閒聊通常是脫口而出。MiniMax-M3 也具備類似的彈性，它提供了兩種截然不同的推理模式。

第一種是思考模式 (Thinking)。這專為需要複雜邏輯推理、代理人任務以及長期協作專案而生。如果今天要指派系統閱讀一份長達百頁的財報，並要求它進行極致的數據交叉分析，那就非常適合切換到思考模式，讓它花時間好好推敲邏輯。

第二種則是非思考模式 (Non-thinking)。這取決於應用場景對時間的敏感度。假如正在打造一個客服機器人，或是開發團隊在寫程式時需要 IDE 瞬間跳出自動補全建議，這時候就需要追求極低的延遲。非思考模式完美契合了這類即時性極高的需求。

開源社群的實作指南

憑藉著龐大參數與優異的長文本處理能力，MiniMax-M3 在各項前沿的代理人評估測試中展現了極高的水準。無論是撰寫複雜的程式碼，還是擔任團隊的長期協作助手，它都能游刃有餘。

更棒的是，開發團隊已經大方公開了這項技術。想要探究演算法細節的研究人員，可以直接閱讀發布在 arXiv 上的技術論文。若想立刻動手實作，官方推薦使用 SGLang、vLLM 或是 Transformers 等高效能框架來進行部署。在推論參數的設定上，官方也有給出最佳建議。只要將參數設定為 temperature=1.0 搭配 top_p=0.95 與 top_k=40，就能激發出模型最優異的生成效果。趕緊把握機會，將這款極具潛力的模型整合進下一個專案吧！

問與答 (FAQ)

Q1：4280 億參數的模型聽起來非常巨大，一般的硬體真的有辦法負荷嗎？ A：不用擔心！雖然 M3 的總參數高達 4280 億，但它採用了聰明的架構設計，在實際運行生成時，每次僅會啟動約 230 億個活躍參數。這種「以專家分工」的模式不僅保留了龐大模型的廣泛知識庫，更成功將運算與硬體負擔控制在非常合理的範圍內。

Q2：文章提到的「原生多模態」和過去常見的多模態模型有什麼本質上的差別？ A：過去許多模型是先用純文字訓練，之後再「外掛」視覺模組給它，就像先學母語再去死背外語單字。而 M3 從訓練的「第一步」開始，就把文字、圖片和影片混合在一起進行訓練。這讓系統在底層邏輯就能建立極為透徹的語意連結，自然融合各種不同格式的資訊。

Q3：「MSA 稀疏注意力機制」具體解決了什麼問題？效能又提升了多少？ A：當模型處理高達 100 萬 Token（約數十萬字）的超長文本時，傳統演算法的運算量會呈現爆炸性增長。MSA 機制讓系統學會「聰明抓重點」，大幅縮減了運算與記憶體需求。在 100 萬 Token 的長度下，它的預填充（Prefilling）速度提升了 9 倍、解碼（Decoding）快了 15 倍，而單一 Token 的運算成本更直接降至以往的二十分之一。

Q4：我該如何決定什麼時候用「思考模式」，什麼時候用「非思考模式」？ A：這完全取決於您的應用場景對「時間」的敏感度。如果您需要極低的延遲（例如：日常的聊天對話、寫程式時 IDE 瞬間跳出自動補全建議），請使用「非思考模式」。如果您是要指派 AI 進行複雜邏輯推理、執行代理人任務或長期協作專案，就請切換到「思考模式」，讓模型花時間仔細推敲。

Q5：如果我或我的團隊想自己部署實作，官方有推薦什麼工具或設定嗎？ A：官方建議開發者可以使用 SGLang、vLLM 或 Transformers 等主流高效能框架來進行部署。此外，為了激發出模型最優異的生成效果，官方強烈推薦將推論參數設定為：temperature=1.0、top_p=0.95 以及 top_k=40。

分享至:

Featured Partners

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

U …

tool

Upstage Solar Open 2 開源模型登場！2 張 H200 就能跑 250B AI Agent，支援 100 萬 Token

降低企業自架 AI 門檻！Upstage 發表 Solar Open 2 開源模型，兩張顯卡搞定 250B 級別自動化工作流 Upstage 推出的最新開源模型 Solar Open 2，透過混合專家與混合注意力架構，讓企業能在有限的硬體預算下，順暢運行具備 100 萬 Token 上下文能力的 AI 代理，極大幅度降低自架模型與日常營運的運算成本。企業想在自家硬體上運行大型語言模型，最常碰到的鐵板就是硬體預算不足。過去如果想讓模型處理寫程式、整理試算表甚至自動搜尋資料，往往得砸大錢買一整排頂級伺服器。最近韓國 AI 團隊 Upstage 推出的 Solar Open 2 開源模型恰好打中了這個痛點。這是一台擁有 2500 億（250B）參數的巨型模型，但有趣的是，它在實際運算時只會動用 150 億（15B）參數。簡單來說，技術團隊只需要兩張量化後的 NVIDIA H200 顯卡，就能在自家的伺服器裡把它順暢跑起來。對於非常注重資料隱私、不想把機密文件往外傳的團隊來說，這絕對是一個令人振奮的好消息。單純聊天已經不夠看，自主 AI 代理成為辦公室新寵你可能也有這種感覺，過去的大型語言模型就像一個問答機器人，你問一句他答一句。然而現在大家要的不只是對話，而是能幫忙幹活的「AI 代理」（AI Agents）。這些 AI 代理必須自己跑去翻文件、寫程式碼、甚至呼叫外部工具來完成交辦任務。這跟簡單的問答完全是兩回事。代理在處理任務時，可能要連續執行幾十個步驟。這時候模型需要具備三項特質：長任務的連續執行力吃下超長文件與歷史紀錄的大胃口精準理解指令並且不亂呼叫工具只要中間有一個步驟出錯，整個後續工作就會直接毀掉。為真實辦公場景打造，拒絕紙上談兵的訓練資料為了讓 Solar Open 2 成為辦公室裡的即戰力，開發團隊從預訓練階段就灌入了大量的真實工作場景。這些場景涵蓋了網路搜尋、工具調用（MCP）、終端機寫程式，以及處理各種複雜的辦公文件。你看過那些講得頭頭是道，一操作就出錯的 AI 嗎？ Upstage 團隊為了避免這個問題，專門開發了一套資料驗證機制。訓練資料裡的每一個搜尋任務或程式修改，都必須在真實環境中實際執行並通過檢驗。模型不只要給出看起來合理的答案，更要確保最終的任務結果是正確無誤的。特別是在處理試算表公式、跨文件比對資訊這類日常工作中，這款模型展現了相當紮實的執行力。 250B 巨無霸卻只要 15B 運算量？MoE 架構的省電秘密為什麼一個 250B 規模的模型可以跑得這麼輕快？秘密就在於混合專家架構（MoE）。

Jul 23, 2026 Read →

8 …

tool

8B 算力打千億巨頭！Poolside 釋出 Laguna S 2.1 長視野程式代理模型

8B 算力就能打千億模型？Poolside 釋出 Laguna S 2.1 程式代理模型 Poolside 最新發布的 Laguna S 2.1 是一款 1,180 億參數（118B）的混合專家（MoE）模型。特別的是，它每次生成 Token 只需要啟動 80 億（8B）參數，卻能在長時間、多步驟的程式開發任務中跑贏體積大它數倍的巨型模型。核心設計：8B 啟動參數與 100 萬 Context 要在複雜專案中替人類除錯或寫程式，模型必須處理極長的上下文。Laguna S 2.1 支援最高 1M（100 萬）Token 的上下文視窗，無論開不開啟思考模式都能穩定跑完長任務。這套模型從開始訓練到正式釋出只花了不到九週。團隊用了 4,096 張 NVIDIA H200 GPU 進行預訓練，後續訓練則首度採用 FP8 精度的強化學習（RL），大幅加快了疊代速度。基準測試：小模型硬槓 1.6 兆參數巨無霸參數大不一定代表在實際任務中更聰明。在評估代理模型操作 Terminal 解決長流程任務的 Terminal-Bench 2.1 測試中，開啟思考模式的 Laguna S 2.1 拿到 70.2% 的成績。這個分數直接壓過許多體積龐大的模型，例如 1.6 兆參數的 DeepSeek-V4-Pro-Max（64.0%）和 5,500 億參數的 Nemotron 3 Ultra（56.4%）。而在多語言軟體工程測試 SWE-Bench Multilingual 中，它也拿到 78.5%。 Poolside 把這次評測的所有執行過程與紀錄都公開在 trajectories.poolside.ai，任何人都可以直接下載軌跡檔案查看每一個步驟。三個實測案例：它怎麼解決複雜任務？比起單純看 benchmark，直接看模型實際怎麼解題更能看出差異：

Jul 22, 2026 Read →

M …

tool

Motif-3-Beta 技術解析：314B 參數與自研 MoE 架構

Motif-3-Beta 技術解析：314B 參數與自研 MoE 架構 Motif Technologies 釋出了 Motif-3-Beta 大語言模型。這款 314B 參數的混合專家模型採用全自研 GDLA 架構，支援 256K 長上下文，單次推論僅動用 13B 參數，在 Artificial Analysis 評測中獲得 44 分。完全自研的 MoE 底座大多數模型開發團隊會選擇基於現有的 Llama 等開源架構進行微調或修改，以節省預訓練成本。Motif Technologies 則選擇從頭建構。 Motif-3-Beta 是全新設計的大規模語言模型，沒有沿用既有的開源架構進行參數重塑。對於關注模型底層創新的開發者來說，這是一個少見的完全自研案例。 384 個專家的稀疏路由機制為了在龐大的參數儲量與推論延遲之間取得平衡，Motif-3-Beta 採用了高稀疏度的混合專家（MoE）架構：總參數：約 314B 單次生成動態參數：約 13B / token 專家數量：384 個路由專家 + 1 個共享專家選取機制：每個 Token 啟動 Top-8 路由專家這意味著模型在處理單個 Token 時，只會激活約 4.1% 的參數。314B 的容量保證了知識涵蓋面，而 13B 的實際計算量則顯著降低了硬體推論代價。 GDLA 與 Grouped PolyNorm 等核心組件為支援高稀疏度並維持訓練穩定，Motif-3-Beta 引入了三項新組件：分組差分潛在注意力（GDLA）：針對長文本處理的記憶體瓶頸，GDLA 透過分組與差分潛在表徵降低了 KV Cache 的消耗，讓模型得以原生支援 256K（262,144 tokens）上下文。 Grouped PolyNorm 激活函數：在大規模訓練中，激活值異常容易引發梯度波動。Grouped PolyNorm 針對各專家進行獨立的歸一化處理，維持收斂穩定。 Modified mHC：調整了多專家之間的溝通與權重調配。 Artificial Analysis 實測數據在 Artificial Analysis Intelligence Index v4.1 的綜合評測中，Motif-3-Beta 獲得 44 分。該評測涵蓋 GPQA Diamond、SciCode 及 Humanity’s Last Exam 等項目。

Jul 22, 2026 Read →

MiniMax-M3 登場：4280 億參數、100 萬 Token 長上下文，開源 AI 模型全面解析

MiniMax-M3 登場：4280 億參數與百萬 Token 的巧妙平衡

到底什麼是原生多模態？

拯救百萬長文的秘密武器

像人一樣切換節奏：雙推理模式

開源社群的實作指南

問與答 (FAQ)

scribis.app

videoweaver.app

DMflow.chat

DMflow.chat

scribis.app

videoweaver.app

DMflow.chat

DMflow.chat

Recommended for You

Upstage Solar Open 2 開源模型登場！2 張 H200 就能跑 250B AI Agent，支援 100 萬 Token

8B 算力打千億巨頭！Poolside 釋出 Laguna S 2.1 長視野程式代理模型

Motif-3-Beta 技術解析：314B 參數與自研 MoE 架構

Leaving Website