智譜 AI 再出奇招！GLM-4.5V 橫空出世，問鼎開源最強視覺模型

AI 圈又迎來重磅消息！智譜 AI 正式發布基於 MoE 架構的新一代視覺推理模型 GLM-4.5V。它不僅在多項基準測試中稱霸，更以開源的姿態向所有開發者開放。這篇文章將帶您深入了解，為什麼 GLM-4.5V 會被譽為當前開源領域的性能怪獸。

你沒看錯，AI 的進化速度從來不會讓人失望。就在大家還在熱烈討論大型語言模型（LLM）的各種可能性時，智譜 AI (Zhipu AI) 悄悄地投下了一顆震撼彈——正式推出新一代旗艦級視覺語言模型 (VLM)：GLM-4.5V。

這不僅僅是一次常規的產品更新。GLM-4.5V 的出現，可以說直接拉高了整個開源社群的技術天花板。它不僅支援圖片、文字等多模態輸入，更在多個權威的基準測試中，以壓倒性的分數擊敗了眾多競爭對手，達到了所謂的 SOTA (State-of-the-Art) 水準。

那麼，這個模型到底有什麼能耐？讓我們一起來看看。

先別急著看分數，聊聊它的「心臟」—— MoE 架構

在深入探討性能之前，我們得先了解 GLM-4.5V 的核心設計：MoE (Mixture-of-Experts) 架構，也就是「混合專家」架構。

這是什麼概念呢？你可以把它想像成一個頂尖的顧問團隊。傳統的大模型就像是一位試圖精通所有領域的通才，雖然知識淵博，但在處理特定專業問題時，可能不夠深入。而 MoE 架構不同，它內部擁有多個「專家網路」，每個專家都專精於某個特定領域，例如圖像辨識、文字理解、邏輯推理等。

當模型接收到一個任務時，一個「門控網路」(Gating Network) 會聰明地判斷該把這個任務交給哪幾位專家處理最有效率。這樣做有什麼好處？

更高的效率： 不再需要動用整個龐大的模型來處理所有問題。GLM-4.5V 的總參數高達 1060 億，但每次處理任務時，僅需活化約 120 億的參數。這就像你只需要請團隊裡的兩三位相關專家開會，而不是把全公司的人都叫來。
更強的性能： 術業有專攻。由專門的「專家」處理特定任務，自然能取得比「通才」更好的結果。

這也是為什麼 GLM-4.5V 能在保持相對較低運算成本的同時，爆發出驚人性能的秘密武器。

數據會說話：GLM-4.5V 的驚人表現

空口無憑，我們直接來看數據。智譜 AI 公布的基準測試成績單，可以說是相當亮眼。在這份詳細的比較中，GLM-4.5V 與 Step-3、Qwen2.5-VL 等知名模型進行了正面交鋒。

老實說，結果有點一面倒。

Benchmarks	GLM-4.5V (106B, A12B w/ thinking)	Step-3 (321B A3B w/ thinking)	Qwen2.5-VL (72B w/o thinking)	GLM-4.1V (9B w/ thinking)	Kimi-VL-2506 (16B A3B w/ thinking)	Gemma-3 (27B w/o thinking)
General VQA
MMBench v1.1	88.2	81.1*	88.0	85.8	84.4	80.1*
MMBench v1.1 (CN)	88.3	81.5*	86.7*	84.7	80.7*	80.8*
MMStar	75.3	69.0*	70.8	72.9	70.4	60.0*
BLINK (val)	65.3	62.7*	58.0*	65.1	53.5*	52.9*
MUIRBENCH	75.3	75.0*	62.9*	74.7	63.8*	50.3*
HallusionBench	65.4	64.2	56.8*	63.2	59.8*	45.8*
ZeroBench (sub)	23.4	23.0	19.5*	19.2	16.2*	17.7*
GeoBench	79.7	72.9	74.3*	76.0	48.0*	57.5*
STEM
MMMU (val)	75.4	74.2	70.2	68.0	64.0	62.0*
MMMU Pro	65.2	58.6	51.1	57.1	46.3	37.4*
MathVista	84.6	79.2*	74.8	80.7	80.1	64.3*
MathVision	65.6	64.8	38.1	54.4	54.4*	39.8*
MathVerse	72.1	62.7*	47.8*	68.4	54.6*	34.0*
DynaMath	53.9	50.1	36.1*	42.5	28.1*	28.5*
LogicVista	62.4	60.2*	56.2*	60.4	51.4*	47.3*
AI2D	88.1	83.7*	87.6*	87.9	81.9*	80.2*
WeMath	68.8	59.8	46.0*	63.8	42.0*	37.9*
Long Document OCR & Chart
MMLongBench-Doc	44.7	31.8*	35.2*	42.4	42.1	28.4*
OCRBench	86.5	83.7	85.1*	84.2	86.9	75.9*
ChartQAPRO	64.0	56.4	46.7*	59.5	23.7*	37.6*
ChartMuseum	55.3	40.0*	39.6*	48.8	33.6*	23.9*
Visual Grounding
RefCOCO-avg (val)	91.3	20.2*	90.3	85.3	33.6*	2.4*
TreeBench	50.1	41.3*	42.3	37.5	41.5*	33.8*
Ref-L4-test	89.5	12.2*	80.8*	86.8	51.3*	2.5*
Spatial Reco & Reasoning
OmniSpatial	51.0	47.0*	47.9	47.7	37.3*	40.8*
CV-Bench	87.3	80.9*	82.0*	85.0	79.1*	74.6*
ERQA	50.0	44.5*	44.8*	45.8	36.0*	37.5*
All-Angles Bench	56.9	52.4*	54.4*	52.7	48.9*	48.2*
GUI Agents
OSWorld	35.8	/	8.8	14.9	8.2	4.4*
AndroidWorld	57.0	/	35.0	41.7	/	34.8*
WebVoyagerSom	84.4	/	40.4*	69.0	/	3.4*
Webquest-SingleQA	76.9	60.5*	72.1	72.1	35.6*	31.2*
Webquest-MultQA	60.6	52.8*	52.1*	54.7	11.1*	36.5*
Coding
Design2Code	82.2	34.1	41.9*	64.7	38.8	16.1
Flame-React-Eval	82.5	63.8	46.3*	72.5	36.3	27.5
Video Understanding
VideoMME (w/o sub)	74.6	/	73.3	68.2	67.8	58.9*
VideoMME (w/ sub)	80.7	/	79.1	73.6	71.9	68.4*
MMVU	68.7	/	62.9	59.4	57.5	57.7*
VideoMMU	72.4	/	60.2	61.0	65.2	54.5*
LVBench	53.8	/	47.3	44.0	47.6*	45.9*
MotionBench	62.4	/	56.1*	59.0	54.3*	47.8*
MVBench	73.0	/	70.4	68.4	59.7*	43.5*

註：帶星號 () 的分數為實驗室重複實驗結果。*

從圖表中可以看到，GLM-4.5V 在絕大多數項目上都以粗體分數領先，特別是在通用視覺問答 (General VQA)、STEM、甚至連長文件光學字元辨識 (OCRBench) 方面的表現都相當亮眼。這證明它不僅擅長「看圖說故事」，更具備深厚的邏輯推理和專業知識理解能力。

一個有趣的點是，即使面對像 Step-3 這樣總參數高達 3210 億的巨無霸模型，GLM-4.5V 依然在多個關鍵項目上勝出。這再次證明了 MoE 架構在效率與性能上的絕佳平衡。

從測試到現實：這對我們意味著什麼？

基準測試的分數固然重要，但這些數字轉化到現實世界中，又能帶來哪些改變呢？

更聰明的 AI 助理： 你可以丟給它一張會議白板的照片，它能自動整理成會議記錄；或是一張複雜的財務報表截圖，它能幫你分析關鍵數據。
自動化能力再升級： 在 GUI Agents 測試中的優異表現，代表它有潛力操作軟體介面，實現真正的「軟體機器人」，自動完成訂票、填表單等繁瑣任務。
開發者的得力助手： 開發者可以利用它的視覺理解能力，將 UI 設計圖直接轉換成程式碼，或讓它「看懂」應用程式的錯誤截圖來輔助除錯。

簡單來說，GLM-4.5V 的出現，讓 AI 更接近人類的「眼腦協同」工作模式，而不僅僅是一個會聊天的機器。

開源的力量：人人都能觸及的頂尖技術

最讓人興奮的一點是，智譜 AI 選擇將如此強大的 GLM-4.5V 開源。

這意味著，無論你是獨立開發者、學術研究者，還是新創公司的工程師，現在都可以透過 Hugging Face 平台下載模型，或透過 API 服務，將這個頂尖的視覺推理能力整合到自己的應用程式中。

開源的決定，無疑會極大地加速整個 AI 生態系的創新。我們可以預見，未來將會湧現出更多基於 GLM-4.5V 的有趣應用，從智慧教育、醫療影像分析到互動娛樂，可能性無窮。

總結來說，GLM-4.5V 不僅僅是一個性能強大的新模型，它更像是智譜 AI 向全球開發者發出的一封邀請函，邀請大家共同探索多模態 AI 的未來。這場由視覺和語言共同驅動的技術革命，才正要開始。

分享至:

Featured Partners

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Recommended for You

K …

tool

Kimi K2.5 模型解析：開源界的新標竿，視覺程式碼與多代理協作的實力展現

Moonshot AI 發布最新開源模型 Kimi K2.5，具備原生多模態能力與強大的「蜂群代理」技術。本文將詳細剖析其在視覺程式碼生成、多代理協作及複雜辦公任務上的突破性表現，並探討其如何以更低的成本達成超越單一代理的效率。技術圈最近有個令人興奮的消息，Moonshot AI 正式推出了 Kimi K2.5。這不僅僅是一個普通的模型更新，它是目前最強大的開源模型之一。經過大約 15T（兆）個混合視覺與文本 Token 的持續預訓練，K2.5 在程式碼編寫、視覺理解以及代理協作（Agent Swarm）方面，都展現了令人印象深刻的實力。對於開發者和專業工作者來說，這意味著什麼？簡單來說，它能看得懂你給的影片，寫出有美感的網頁，甚至能指揮一百個 AI 小幫手同時幫你查資料。我們這就來看看 Kimi K2.5 的幾個核心亮點。視覺與程式碼的完美融合：懂美感的工程師以前我們讓 AI 寫網頁，通常只能得到結構正確但外觀樸素的程式碼。但 Kimi K2.5 打破了這個限制。它內建了原生的多模態能力，這讓它在處理「視覺程式碼」（Coding with Vision）時顯得游刃有餘。你可以試著把一個網站的操作影片丟給它，或者給它一張設計草圖，K2.5 能夠理解其中的視覺邏輯、佈局互動，甚至是動畫效果。它不再只是單純地翻譯文字指令，而是像一個有經驗的前端工程師，能夠理解「美感」與「使用者體驗」。舉個例子，如果你想要一個類似馬蒂斯（Matisse）畫作風格的網頁，K2.5 不僅能生成程式碼，還能透過視覺除錯（Visual Debugging）來自我修正，確保最終呈現的效果符合藝術美感。這種從影片或圖像直接轉換為互動式介面、且包含豐富滾動特效的能力，大幅降低了將創意轉化為成品的門檻。蜂群代理系統：以一當百的並行處理能力這大概是 K2.5 最具科幻感的功能了。面對複雜的難題，單打獨鬥往往效率低落。Kimi K2.5 引入了「蜂群代理」（Agent Swarm）的概念。這不是單純的多工處理，而是一個能夠自我指揮的協作系統。想像一下，你需要調查一百個不同領域的利基市場。傳統的 AI 代理可能需要一步一步、一個一個去搜尋，耗時且容易出錯。但在 K2.5 的架構下，主代理（Orchestrator）會自動將任務拆解，並指揮多達 100 個子代理（Sub-agents）同時開工。這些子代理就像是一個訓練有素的團隊，並行執行多達 1,500 次的工具調用。這帶來了什麼改變？速度提升：相較於單一代理模式，執行時間縮短了 4.5 倍。自動編排：使用者不需要預先定義工作流程，K2.5 會根據任務需求，動態生成並管理這些子代理。這種並行處理能力，讓 Kimi K2.5 在處理廣度搜尋（Wide Search）這類任務時，展現出驚人的效率。辦公生產力的實質躍升：解決真實世界的繁重工作在實際的辦公場景中，我們面對的往往不是簡單的問答，而是高密度、長篇幅的資料處理。Kimi K2.5 特別針對這一點進行了優化。

Jan 29, 2026 Read →

S …

tool

StepFun Step-Audio-R1.1 登場：超越 GPT-4o 與 Gemini 的語音推理新霸主

在語音 AI 的競賽場上，大家總是習慣盯著 OpenAI 或 Google 的最新動態，期待他們端出下一個震撼世界的產品。但就在最近，一個開源權重模型無聲無息地爬上了排行榜的頂端，讓許多科技巨頭感到汗顏。這款名為 Step-Audio-R1.1 的模型，由 StepFun（階躍星辰）開發，它不僅在語音推理能力上刷新了紀錄，更在即時互動的流暢度上展現了驚人的實力。如果您以為這只是另一個普通的語音模型，那可就大錯特錯了。它在 Artificial Analysis 的語音推理基準測試（Speech Reasoning benchmark）中，以 96.4% 的準確率拿下了冠軍寶座，直接將 Grok、Gemini 乃至 GPT-Realtime 甩在身後。這究竟是怎麼做到的？讓我們來拆解這項技術背後的秘密。語音推理的新高度：數據不會說謊讓我們先來看看最直觀的數據表現。根據 Artificial Analysis 的 Big Bench Audio 數據集測試結果，Step-Audio-R1.1 展現了壓倒性的優勢。在這份榜單上，排在第二名的 Grok Voice Agent 成績是 92.3%，而廣受關注的 GPT-4o Realtime Preview 則落在 66% 到 68% 之間。這意味著什麼？這代表在處理複雜的語音指令、理解語境以及進行邏輯推演時，Step-Audio-R1.1 的表現比目前市面上昂貴的商業模型還要精準。這並非單純的語音轉文字再處理，而是真正的「端到端」（End-to-End）語音原生推理。模型直接聽懂了聲音中的邏輯，而不是依賴文字轉錄的中介。對於開發者與研究人員來說，這是一個激動人心的消息，尤其是當您可以在 Hugging Face 下載 Step-Audio-R1.1 的權重，親自驗證這項技術時，這種震撼感會更加真實。速度與智慧的博弈：打破傳統權衡長期以來，AI 領域存在一個難以忽視的矛盾：想要模型更聰明，通常就得犧牲反應速度；想要反應快，往往就得犧牲推理的深度。但在即時語音對話中，延遲是使用者體驗的殺手。沒人喜歡對著一個還要思考五秒鐘才能回話的 AI 聊天，那種尷尬的沉默會毀掉所有的沉浸感。 Step-Audio-R1.1 透過一種被稱為「思維配速說話」（Mind-Paced Speaking）的技術，巧妙地解決了這個難題。您可以把它想像成一位經驗豐富的演講者，他們不需要停下來長時間思考，而是能夠邊說邊想，組織語言的同時也在進行深層邏輯推演。這得益於其獨特的雙腦架構（Dual-Brain Architecture）：構思大腦（Formulation Brain）：負責高層次的邏輯推理與內容規劃。表達大腦（Articulation Brain）：專注於語音生成的流暢度與自然度。這種分工合作的機制，讓模型能夠在輸出的同時進行「思維鏈」（Chain-of-Thought）推理。結果就是，它既能保持極低的延遲，又能處理複雜的任務，完全不需要在速度與智慧之間做取捨。想體驗這種流暢感的朋友，可以前往 ModelScope 的 Demo 頁面試試看。

Jan 16, 2026 Read →

L …

tool

Liquid AI LFM2.5 強勢登場：重新定義端側 AI 效能，1B 參數模型的極致表現

Liquid AI 最新發布 LFM2.5 系列模型，以 1.2B 的輕量級參數帶來桌機級的效能。本文深入解析其在文字、視覺、日語及原生音訊處理上的突破，並探討這款針對端側裝置優化的開源模型如何改變開發者生態。大家有沒有發現，最近 AI 界的風向似乎正在悄悄轉變？雖然超大型模型依然佔據頭條，但真正在開發者社群中引起騷動的，反而是那些「小而美」、能跑在自己設備上的模型。就在昨天，Liquid AI 拋出了一枚震撼彈：LFM2.5 系列。這不僅僅是一次版本更新，它向我們展示了當 10 億（1B）參數等級的模型經過精心調校後，竟然能爆發出如此驚人的潛力。 LFM2.5 的核心目標非常明確：讓強大的 AI 走出雲端機房，直接住進你的筆電、手機甚至汽車裡。Liquid AI 這次不僅將預訓練數據量從 10T 提升到了 28T Token，更引入了強化學習來打磨後訓練流程。結果如何？他們在各項基準測試中，正面擊敗了 Llama 3.2 1B 和 Qwen 3 1.7B 等強勁對手。接下來，我們就來仔細拆解這次發布的重點，看看這個「小巨人」家族究竟藏著什麼黑科技。 LFM2.5 的核心架構：不只是堆砌數據這裡有個關鍵點需要釐清。很多人認為提升模型能力就是單純地「餵更多書給它讀」。但 LFM2.5 的成功並非僅此而已。它是建立在 LFM2 設備優化混合架構（device-optimized hybrid architecture）之上的進化版。 Liquid AI 這次採取了更積極的策略，將預訓練的規模擴大了近三倍（達到 28T Token）。這意味著模型在「大腦」容量有限的情況下，吸收了更廣泛的知識密度。更重要的是，團隊在後訓練階段大量運用了強化學習。這就像是給模型請了一位嚴格的家教，針對邏輯推理和指令遵循能力進行了高強度的特訓。對於開發者來說，這代表著你拿到手的不只是一個「會說話」的模型，而是一個懂得如何使用工具、能執行複雜指令的可靠代理（Agent）。而且，這些都是在開源權重（Open-weight）的前提下實現的。滿足多元需求的五大模型變體 LFM2.5 並非單打獨鬥，而是一個針對不同場景量身打造的家族。Liquid AI 這次一口氣推出了五個針對特定用途優化的模型實例，讓開發者不再需要拿著鐵鎚找釘子。 1. 通用指令模型 (Instruct Model) 這是整個系列的明星產品。LFM2.5-1.2B-Instruct 是大多數開發者的首選。它經過了監督式微調（SFT）和多階段強化學習，開箱即用。無論是處理一般對話、數學問題，還是調用外部工具，它都展現出了超越同級對手的穩定性。這款模型非常適合用來打造本地端的 Copilot 或是個人助理，因為它反應夠快，且不需要聯網就能處理隱私數據。 2. 基礎模型 (Base Model) 對於那些喜歡自己動手改裝的技術愛好者或企業研發團隊，LFM2.5-1.2B-Base 提供了最純粹的畫布。這是一個預訓練的檢查點（Checkpoint），尚未經過指令微調。如果您需要訓練一個特定領域的助手（比如醫療、法律專用），或者是想嘗試新穎的後訓練方法，這個基礎模型就是最佳起點。它擁有強大的知識底蘊，等待您去引導它的輸出方向。 3. 日語優化模型 (Japanese Language Model) 語言的精髓往往在於文化與語境，而不僅僅是字面翻譯。LFM2.5-1.2B-JP 是專為日語環境打造的聊天模型。雖然原版模型已經支援日語，但這個專用版本在日語知識庫和指令遵循上達到了該尺寸模型的「最先進」（SOTA）水準。對於需要開發日本市場應用、且極度重視文化細微差別的開發者來說，這是一個不可多得的工具。

Jan 6, 2026 Read →