專為長程任務而生：智譜 AI 釋出 753B 開源模型 GLM-5.2，百萬上下文單挑 Claude Opus 4.8

上下文單挑 Claude Opus

調用外部的 MCP (Mode

以直接前往 Huggingface 下載 GL

，並且透過 vLLM、SGLan

與答 (Q&A) Q1

tool

專為長程任務而生：智譜 AI 釋出 753B 開源模型 GLM-5.2，百萬上下文單挑 Claude Opus 4.8

2026-06-17

專為長程任務而生：智譜 AI 釋出 753B 開源模型 GLM-5.2，百萬上下文單挑 Claude Opus 4.8

閉源模型競爭白熱化，科技巨頭們持續在算力與規格上角力。令人驚訝的是，智譜 AI (Z.ai) 剛剛丟出了一顆震撼彈，也就是最新旗艦模型 GLM-5.2。身為前一代 GLM-5.1 的大進化版，這款模型是個擁有高達 7,530 億 (753B) 參數的龐然大物。最引人注目的地方，在於它全面採用了 MIT 開源協議。沒有地域限制，也沒有技術邊界。這代表全球開發者都能無縫取得這個純粹且強大的工具。說實話，看著開源社群展現出如此強悍的逆襲潛力，確實讓人感到熱血沸騰。

真正可用的「100 萬上下文」，把整個專案一口吞下

過去許多語言模型標榜支援超長文本，最後往往在實戰中出現嚴重的「遺忘」或「幻覺」問題。這就像是讀一本厚重的百科全書，翻到最後一頁時，早就忘了前面章節的細節。GLM-5.2 的最大賣點，恰好解決了這個痛點，它提供了真正可用且無損的 1M（一百萬）上下文窗口，最大輸出更是高達 128K Tokens。

事情是這樣的，在實際的專案測試中，它能夠在一次任務中處理超過 85 萬 (850K) 個 Tokens。這代表工程師可以直接把整個專案的原始程式碼通通塞給模型。從初期的需求分析、架構設計，一路包辦到前後端開發、測試與自動化部署，完全是一條龍作業。這項能力涵蓋了微信小程序、小遊戲的開發，甚至是移動端真機調試的完整閉環。就連將自然語言的創意直接轉化為可展示的影片，也能順暢執行。過去需要整個研發團隊協作數週的繁雜工程，現在竟然有望在一次連續的長程對話中交付。初期評估時，許多人懷疑如此龐大的資訊量會導致系統崩潰。後續的大量盲測數據反而證明了它的穩定性，這也是為何它被業界譽為長程任務王者的原因。

底層架構的大翻修：IndexShare 機制與算力魔法

要支撐 1M 的超大上下文，硬體的算力消耗通常極為驚人。伺服器的電費和運算成本絕對是個難以忽視的天文數字。為了解決效能瓶頸，GLM-5.2 在底層架構上提出了兩大關鍵創新。仔細探究這背後的技術，會發現充滿了巧思。

第一個重大亮點是 IndexShare 機制。簡單來說，它讓每四個稀疏注意力層 (sparse attention layers) 共用同一個索引器 (indexer)。這就好比一間大型辦公室裡，四個不同部門完美排程共用一台超級印表機，藉此大幅減少硬體資源的浪費。這項技術讓模型在處理 1M 上下文時，單個 Token 的浮點運算次數 (FLOPs) 大幅降低了 2.9 倍，直接將整體運算效率拉高了一個檔次。

另一個效能推手則是升級版的 MTP 層。這主要是針對推測解碼 (speculative decoding) 技術進行了底層優化。雖然專有名詞聽起來有些生硬，但它的實際效果非常直觀，就是將接受長度提升了高達 20%。這意味著程式碼與文本的生成速度更快，開發者再也不用盯著螢幕乾等游標緩慢閃爍。

跑分不是一切，但單挑 Claude Opus 4.8 確實很有看頭

科技圈有句玩笑話，跑分高並不絕對等於好用。不過當評測成績突破特定天花板時，就很難被市場忽視了。在各項國際權威的長程任務基準測試中，GLM-5.2 成為了目前綜合排名最高的開源模型。

以高難度的 FrontierSWE 測試為例，它的表現超越了 GPT-5.5 約 1%，並大幅甩開了 Claude Opus 4.7 達 11%。更驚人的是，它僅以約 1% 的微小差距緊咬著閉源領域的霸主 Claude Opus 4.8。而在全球百萬用戶參與盲測的前端開發評估系統 Code Arena 裡，GLM-5.2 更是擊敗眾多強敵，拿下了全球可用模型第一的傲人成績。除此之外，在數學與邏輯推理測試 AIME 2026 中，其準確率高達 99.2%。這展現了極其頂尖的邏輯推演能力，完全足以應付企業級的複雜商業邏輯演算。

懂工程師的痛點：緩存、多層級思考與外部工具串接

除了強大的核心運算能力，這款模型還配備了現代 AI 軟體開發所需的所有關鍵基礎設施。畢竟模型本身再聰明，如果缺乏友善的串接介面，終究難以落地應用。

它提供了上下文緩存 (Context Caching) 功能。透過智能緩存機制來優化長對話的性能，能大幅節省重複運算的等待時間與伺服器成本。另外，內建的靈活思考模式 (Flexible Effort) 讓開發者能根據專案的緊急程度，在運算延遲與生成品質之間取得最佳平衡。想要快速取得草稿就調低耗能，遇到複雜的架構難題就火力全開。

在系統整合方面，它完美支援 JSON 等結構化格式輸出。更棒的是，它能夠靈活調用外部的 MCP (Model Context Protocol) 工具與數據源。這代表系統可以輕易地讀取企業內部資料庫或是呼叫第三方 API，大幅擴展了自動化流程的應用情境。

常見問題與實機演練：現在就開始把玩 GLM-5.2

探討了這麼多技術細節，許多開發者最關心的肯定是實際部署與應用的方式。綜合開源社群中最熱門的討論，以下整理了幾個關鍵的實務疑問。

這款高規格模型真的是免費的嗎？完全正確。它基於寬鬆的 MIT 協議發布，不管是學術單位的研究實驗，還是企業內部的商業產品開發，都能毫無法律顧慮地無縫接軌。

如果要自己架設伺服器，支援哪些開源框架？目前社群已經提供了極高的相容性支援。工程師可以直接前往 Huggingface 下載 GLM-5.2 的模型權重，並且透過 vLLM、SGLang、Transformers 甚至是 KTransformers 等主流開源框架進行本地端部署。

如果本地硬體跑不動 753B 的龐大參數怎麼辦？硬體資源有限也完全不是問題。開發團隊可以直接透過智譜的大模型開放平台 API 進行遠端呼叫。官方文件中非常貼心地提供了 cURL、Python 和 Java 的基礎與流式呼叫程式碼範例，只要帶上專屬的 API Key，就能立刻體驗 1M 上下文接管大型專案的威力。

這款旗艦級的開源基礎模型，無疑將成為下一波軟體工程自動化革命的重要推手。把繁瑣的程式碼重構和基礎架構除錯交給 AI 處理，人類工程師便能將寶貴的時間精力，專注在更有趣的產品創意與使用者體驗上。立刻動手寫個腳本試試看吧，或許下一個改變市場格局的殺手級應用，就會在與 GLM-5.2 的終端機對話框中誕生。

問與答 (Q&A)

Q1: GLM-5.2 的最大規格特色是什麼？ A: GLM-5.2 是一款擁有高達 7,530 億 (753B) 參數的旗艦開源模型，具備真正可用且無損的 100 萬 (1M) 上下文窗口，最大輸出可達 128K Tokens，非常適合一次接管並處理龐大的專案級工程任務。

Q2: 為了支援 100 萬的上下文長度，GLM-5.2 在底層技術上做了哪些突破？ A: 為了降低驚人的算力消耗，GLM-5.2 導入了 IndexShare 機制，讓每四個稀疏注意力層共用同一個索引器，這將處理 1M 上下文時的單個 Token 浮點運算次數 (FLOPs) 大幅降低了 2.9 倍。此外，它還升級了 MTP 層來優化推測解碼，使接受長度提升了高達 20%。

Q3: GLM-5.2 的能力真的能跟國外頂尖的閉源模型競爭嗎？ A: 是的，跑分數據非常亮眼。在高難度的長程任務基準測試 FrontierSWE 中，GLM-5.2 取得了 74.4% 的成績，不僅超越了 GPT-5.5 (72.6%) 與 Claude Opus 4.7 (63.0%)，更僅以極小差距緊咬著 Claude Opus 4.8 (75.1%)。在 AIME 2026 數學測試中，其準確率更高達 99.2%。

Q4: 企業或開發者如果想使用 GLM-5.2，需要擔心版權或授權問題嗎？ A: 完全不需要。GLM-5.2 採用了極度寬鬆的 MIT 開源協議。這意味著它沒有地域限制，無論是學術研究還是商業應用，全球開發者都能自由且無縫地取得並使用這個強大的模型。

Q5: 在實際開發與部署上，GLM-5.2 提供了哪些友善的支援？ A: 在應用層面，它內建了靈活思考模式 (Flexible Effort) 以平衡效能，並完美支援上下文緩存 (Context Caching)、MCP (Model Context Protocol) 外部工具調用以及結構化 JSON 輸出。在部署層面，工程師可以使用 vLLM、SGLang、Transformers 或 KTransformers 等主流開源框架來架設本地伺服器。

分享至:

Featured Partners

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Recommended for You

U …

tool

Upstage Solar Open 2 開源模型登場！2 張 H200 就能跑 250B AI Agent，支援 100 萬 Token

降低企業自架 AI 門檻！Upstage 發表 Solar Open 2 開源模型，兩張顯卡搞定 250B 級別自動化工作流 Upstage 推出的最新開源模型 Solar Open 2，透過混合專家與混合注意力架構，讓企業能在有限的硬體預算下，順暢運行具備 100 萬 Token 上下文能力的 AI 代理，極大幅度降低自架模型與日常營運的運算成本。企業想在自家硬體上運行大型語言模型，最常碰到的鐵板就是硬體預算不足。過去如果想讓模型處理寫程式、整理試算表甚至自動搜尋資料，往往得砸大錢買一整排頂級伺服器。最近韓國 AI 團隊 Upstage 推出的 Solar Open 2 開源模型恰好打中了這個痛點。這是一台擁有 2500 億（250B）參數的巨型模型，但有趣的是，它在實際運算時只會動用 150 億（15B）參數。簡單來說，技術團隊只需要兩張量化後的 NVIDIA H200 顯卡，就能在自家的伺服器裡把它順暢跑起來。對於非常注重資料隱私、不想把機密文件往外傳的團隊來說，這絕對是一個令人振奮的好消息。單純聊天已經不夠看，自主 AI 代理成為辦公室新寵你可能也有這種感覺，過去的大型語言模型就像一個問答機器人，你問一句他答一句。然而現在大家要的不只是對話，而是能幫忙幹活的「AI 代理」（AI Agents）。這些 AI 代理必須自己跑去翻文件、寫程式碼、甚至呼叫外部工具來完成交辦任務。這跟簡單的問答完全是兩回事。代理在處理任務時，可能要連續執行幾十個步驟。這時候模型需要具備三項特質：長任務的連續執行力吃下超長文件與歷史紀錄的大胃口精準理解指令並且不亂呼叫工具只要中間有一個步驟出錯，整個後續工作就會直接毀掉。為真實辦公場景打造，拒絕紙上談兵的訓練資料為了讓 Solar Open 2 成為辦公室裡的即戰力，開發團隊從預訓練階段就灌入了大量的真實工作場景。這些場景涵蓋了網路搜尋、工具調用（MCP）、終端機寫程式，以及處理各種複雜的辦公文件。你看過那些講得頭頭是道，一操作就出錯的 AI 嗎？ Upstage 團隊為了避免這個問題，專門開發了一套資料驗證機制。訓練資料裡的每一個搜尋任務或程式修改，都必須在真實環境中實際執行並通過檢驗。模型不只要給出看起來合理的答案，更要確保最終的任務結果是正確無誤的。特別是在處理試算表公式、跨文件比對資訊這類日常工作中，這款模型展現了相當紮實的執行力。 250B 巨無霸卻只要 15B 運算量？MoE 架構的省電秘密為什麼一個 250B 規模的模型可以跑得這麼輕快？秘密就在於混合專家架構（MoE）。

Jul 23, 2026 Read →

8 …

tool

8B 算力打千億巨頭！Poolside 釋出 Laguna S 2.1 長視野程式代理模型

8B 算力就能打千億模型？Poolside 釋出 Laguna S 2.1 程式代理模型 Poolside 最新發布的 Laguna S 2.1 是一款 1,180 億參數（118B）的混合專家（MoE）模型。特別的是，它每次生成 Token 只需要啟動 80 億（8B）參數，卻能在長時間、多步驟的程式開發任務中跑贏體積大它數倍的巨型模型。核心設計：8B 啟動參數與 100 萬 Context 要在複雜專案中替人類除錯或寫程式，模型必須處理極長的上下文。Laguna S 2.1 支援最高 1M（100 萬）Token 的上下文視窗，無論開不開啟思考模式都能穩定跑完長任務。這套模型從開始訓練到正式釋出只花了不到九週。團隊用了 4,096 張 NVIDIA H200 GPU 進行預訓練，後續訓練則首度採用 FP8 精度的強化學習（RL），大幅加快了疊代速度。基準測試：小模型硬槓 1.6 兆參數巨無霸參數大不一定代表在實際任務中更聰明。在評估代理模型操作 Terminal 解決長流程任務的 Terminal-Bench 2.1 測試中，開啟思考模式的 Laguna S 2.1 拿到 70.2% 的成績。這個分數直接壓過許多體積龐大的模型，例如 1.6 兆參數的 DeepSeek-V4-Pro-Max（64.0%）和 5,500 億參數的 Nemotron 3 Ultra（56.4%）。而在多語言軟體工程測試 SWE-Bench Multilingual 中，它也拿到 78.5%。 Poolside 把這次評測的所有執行過程與紀錄都公開在 trajectories.poolside.ai，任何人都可以直接下載軌跡檔案查看每一個步驟。三個實測案例：它怎麼解決複雜任務？比起單純看 benchmark，直接看模型實際怎麼解題更能看出差異：

Jul 22, 2026 Read →

M …

tool

Motif-3-Beta 技術解析：314B 參數與自研 MoE 架構

Motif-3-Beta 技術解析：314B 參數與自研 MoE 架構 Motif Technologies 釋出了 Motif-3-Beta 大語言模型。這款 314B 參數的混合專家模型採用全自研 GDLA 架構，支援 256K 長上下文，單次推論僅動用 13B 參數，在 Artificial Analysis 評測中獲得 44 分。完全自研的 MoE 底座大多數模型開發團隊會選擇基於現有的 Llama 等開源架構進行微調或修改，以節省預訓練成本。Motif Technologies 則選擇從頭建構。 Motif-3-Beta 是全新設計的大規模語言模型，沒有沿用既有的開源架構進行參數重塑。對於關注模型底層創新的開發者來說，這是一個少見的完全自研案例。 384 個專家的稀疏路由機制為了在龐大的參數儲量與推論延遲之間取得平衡，Motif-3-Beta 採用了高稀疏度的混合專家（MoE）架構：總參數：約 314B 單次生成動態參數：約 13B / token 專家數量：384 個路由專家 + 1 個共享專家選取機制：每個 Token 啟動 Top-8 路由專家這意味著模型在處理單個 Token 時，只會激活約 4.1% 的參數。314B 的容量保證了知識涵蓋面，而 13B 的實際計算量則顯著降低了硬體推論代價。 GDLA 與 Grouped PolyNorm 等核心組件為支援高稀疏度並維持訓練穩定，Motif-3-Beta 引入了三項新組件：分組差分潛在注意力（GDLA）：針對長文本處理的記憶體瓶頸，GDLA 透過分組與差分潛在表徵降低了 KV Cache 的消耗，讓模型得以原生支援 256K（262,144 tokens）上下文。 Grouped PolyNorm 激活函數：在大規模訓練中，激活值異常容易引發梯度波動。Grouped PolyNorm 針對各專家進行獨立的歸一化處理，維持收斂穩定。 Modified mHC：調整了多專家之間的溝通與權重調配。 Artificial Analysis 實測數據在 Artificial Analysis Intelligence Index v4.1 的綜合評測中，Motif-3-Beta 獲得 44 分。該評測涵蓋 GPQA Diamond、SciCode 及 Humanity’s Last Exam 等項目。

Jul 22, 2026 Read →

專為長程任務而生：智譜 AI 釋出 753B 開源模型 GLM-5.2，百萬上下文單挑 Claude Opus 4.8

專為長程任務而生：智譜 AI 釋出 753B 開源模型 GLM-5.2，百萬上下文單挑 Claude Opus 4.8

真正可用的「100 萬上下文」，把整個專案一口吞下

底層架構的大翻修：IndexShare 機制與算力魔法

跑分不是一切，但單挑 Claude Opus 4.8 確實很有看頭

懂工程師的痛點：緩存、多層級思考與外部工具串接

常見問題與實機演練：現在就開始把玩 GLM-5.2

問與答 (Q&A)

scribis.app

DMflow.chat

DMflow.chat

videoweaver.app

scribis.app

DMflow.chat

DMflow.chat

videoweaver.app

Recommended for You

Upstage Solar Open 2 開源模型登場！2 張 H200 就能跑 250B AI Agent，支援 100 萬 Token

8B 算力打千億巨頭！Poolside 釋出 Laguna S 2.1 長視野程式代理模型

Motif-3-Beta 技術解析：314B 參數與自研 MoE 架構

Leaving Website