AI 圈又迎來重磅消息!智譜 AI 正式發布基於 MoE 架構的新一代視覺推理模型 GLM-4.5V。它不僅在多項基準測試中稱霸,更以開源的姿態向所有開發者開放。這篇文章將帶您深入了解,為什麼 GLM-4.5V 會被譽為當前開源領域的性能怪獸。
你沒看錯,AI 的進化速度從來不會讓人失望。就在大家還在熱烈討論大型語言模型(LLM)的各種可能性時,智譜 AI (Zhipu AI) 悄悄地投下了一顆震撼彈——正式推出新一代旗艦級視覺語言模型 (VLM):GLM-4.5V。
這不僅僅是一次常規的產品更新。GLM-4.5V 的出現,可以說直接拉高了整個開源社群的技術天花板。它不僅支援圖片、文字等多模態輸入,更在多個權威的基準測試中,以壓倒性的分數擊敗了眾多競爭對手,達到了所謂的 SOTA (State-of-the-Art) 水準。
那麼,這個模型到底有什麼能耐?讓我們一起來看看。
先別急著看分數,聊聊它的「心臟」—— MoE 架構
在深入探討性能之前,我們得先了解 GLM-4.5V 的核心設計:MoE (Mixture-of-Experts) 架構,也就是「混合專家」架構。
這是什麼概念呢?你可以把它想像成一個頂尖的顧問團隊。傳統的大模型就像是一位試圖精通所有領域的通才,雖然知識淵博,但在處理特定專業問題時,可能不夠深入。而 MoE 架構不同,它內部擁有多個「專家網路」,每個專家都專精於某個特定領域,例如圖像辨識、文字理解、邏輯推理等。
當模型接收到一個任務時,一個「門控網路」(Gating Network) 會聰明地判斷該把這個任務交給哪幾位專家處理最有效率。這樣做有什麼好處?
- 更高的效率: 不再需要動用整個龐大的模型來處理所有問題。GLM-4.5V 的總參數高達 1060 億,但每次處理任務時,僅需活化約 120 億的參數。這就像你只需要請團隊裡的兩三位相關專家開會,而不是把全公司的人都叫來。
- 更強的性能: 術業有專攻。由專門的「專家」處理特定任務,自然能取得比「通才」更好的結果。
這也是為什麼 GLM-4.5V 能在保持相對較低運算成本的同時,爆發出驚人性能的秘密武器。
數據會說話:GLM-4.5V 的驚人表現
空口無憑,我們直接來看數據。智譜 AI 公布的基準測試成績單,可以說是相當亮眼。在這份詳細的比較中,GLM-4.5V 與 Step-3、Qwen2.5-VL 等知名模型進行了正面交鋒。
老實說,結果有點一面倒。
| Benchmarks | GLM-4.5V (106B, A12B w/ thinking) | Step-3 (321B A3B w/ thinking) | Qwen2.5-VL (72B w/o thinking) | GLM-4.1V (9B w/ thinking) | Kimi-VL-2506 (16B A3B w/ thinking) | Gemma-3 (27B w/o thinking) |
|---|---|---|---|---|---|---|
| General VQA | ||||||
| MMBench v1.1 | 88.2 | 81.1* | 88.0 | 85.8 | 84.4 | 80.1* |
| MMBench v1.1 (CN) | 88.3 | 81.5* | 86.7* | 84.7 | 80.7* | 80.8* |
| MMStar | 75.3 | 69.0* | 70.8 | 72.9 | 70.4 | 60.0* |
| BLINK (val) | 65.3 | 62.7* | 58.0* | 65.1 | 53.5* | 52.9* |
| MUIRBENCH | 75.3 | 75.0* | 62.9* | 74.7 | 63.8* | 50.3* |
| HallusionBench | 65.4 | 64.2 | 56.8* | 63.2 | 59.8* | 45.8* |
| ZeroBench (sub) | 23.4 | 23.0 | 19.5* | 19.2 | 16.2* | 17.7* |
| GeoBench | 79.7 | 72.9 | 74.3* | 76.0 | 48.0* | 57.5* |
| STEM | ||||||
| MMMU (val) | 75.4 | 74.2 | 70.2 | 68.0 | 64.0 | 62.0* |
| MMMU Pro | 65.2 | 58.6 | 51.1 | 57.1 | 46.3 | 37.4* |
| MathVista | 84.6 | 79.2* | 74.8 | 80.7 | 80.1 | 64.3* |
| MathVision | 65.6 | 64.8 | 38.1 | 54.4 | 54.4* | 39.8* |
| MathVerse | 72.1 | 62.7* | 47.8* | 68.4 | 54.6* | 34.0* |
| DynaMath | 53.9 | 50.1 | 36.1* | 42.5 | 28.1* | 28.5* |
| LogicVista | 62.4 | 60.2* | 56.2* | 60.4 | 51.4* | 47.3* |
| AI2D | 88.1 | 83.7* | 87.6* | 87.9 | 81.9* | 80.2* |
| WeMath | 68.8 | 59.8 | 46.0* | 63.8 | 42.0* | 37.9* |
| Long Document OCR & Chart | ||||||
| MMLongBench-Doc | 44.7 | 31.8* | 35.2* | 42.4 | 42.1 | 28.4* |
| OCRBench | 86.5 | 83.7 | 85.1* | 84.2 | 86.9 | 75.9* |
| ChartQAPRO | 64.0 | 56.4 | 46.7* | 59.5 | 23.7* | 37.6* |
| ChartMuseum | 55.3 | 40.0* | 39.6* | 48.8 | 33.6* | 23.9* |
| Visual Grounding | ||||||
| RefCOCO-avg (val) | 91.3 | 20.2* | 90.3 | 85.3 | 33.6* | 2.4* |
| TreeBench | 50.1 | 41.3* | 42.3 | 37.5 | 41.5* | 33.8* |
| Ref-L4-test | 89.5 | 12.2* | 80.8* | 86.8 | 51.3* | 2.5* |
| Spatial Reco & Reasoning | ||||||
| OmniSpatial | 51.0 | 47.0* | 47.9 | 47.7 | 37.3* | 40.8* |
| CV-Bench | 87.3 | 80.9* | 82.0* | 85.0 | 79.1* | 74.6* |
| ERQA | 50.0 | 44.5* | 44.8* | 45.8 | 36.0* | 37.5* |
| All-Angles Bench | 56.9 | 52.4* | 54.4* | 52.7 | 48.9* | 48.2* |
| GUI Agents | ||||||
| OSWorld | 35.8 | / | 8.8 | 14.9 | 8.2 | 4.4* |
| AndroidWorld | 57.0 | / | 35.0 | 41.7 | / | 34.8* |
| WebVoyagerSom | 84.4 | / | 40.4* | 69.0 | / | 3.4* |
| Webquest-SingleQA | 76.9 | 60.5* | 72.1 | 72.1 | 35.6* | 31.2* |
| Webquest-MultQA | 60.6 | 52.8* | 52.1* | 54.7 | 11.1* | 36.5* |
| Coding | ||||||
| Design2Code | 82.2 | 34.1 | 41.9* | 64.7 | 38.8 | 16.1 |
| Flame-React-Eval | 82.5 | 63.8 | 46.3* | 72.5 | 36.3 | 27.5 |
| Video Understanding | ||||||
| VideoMME (w/o sub) | 74.6 | / | 73.3 | 68.2 | 67.8 | 58.9* |
| VideoMME (w/ sub) | 80.7 | / | 79.1 | 73.6 | 71.9 | 68.4* |
| MMVU | 68.7 | / | 62.9 | 59.4 | 57.5 | 57.7* |
| VideoMMU | 72.4 | / | 60.2 | 61.0 | 65.2 | 54.5* |
| LVBench | 53.8 | / | 47.3 | 44.0 | 47.6* | 45.9* |
| MotionBench | 62.4 | / | 56.1* | 59.0 | 54.3* | 47.8* |
| MVBench | 73.0 | / | 70.4 | 68.4 | 59.7* | 43.5* |
註:帶星號 () 的分數為實驗室重複實驗結果。*
從圖表中可以看到,GLM-4.5V 在絕大多數項目上都以粗體分數領先,特別是在通用視覺問答 (General VQA)、STEM、甚至連長文件光學字元辨識 (OCRBench) 方面的表現都相當亮眼。這證明它不僅擅長「看圖說故事」,更具備深厚的邏輯推理和專業知識理解能力。
一個有趣的點是,即使面對像 Step-3 這樣總參數高達 3210 億的巨無霸模型,GLM-4.5V 依然在多個關鍵項目上勝出。這再次證明了 MoE 架構在效率與性能上的絕佳平衡。
從測試到現實:這對我們意味著什麼?
基準測試的分數固然重要,但這些數字轉化到現實世界中,又能帶來哪些改變呢?
- 更聰明的 AI 助理: 你可以丟給它一張會議白板的照片,它能自動整理成會議記錄;或是一張複雜的財務報表截圖,它能幫你分析關鍵數據。
- 自動化能力再升級: 在 GUI Agents 測試中的優異表現,代表它有潛力操作軟體介面,實現真正的「軟體機器人」,自動完成訂票、填表單等繁瑣任務。
- 開發者的得力助手: 開發者可以利用它的視覺理解能力,將 UI 設計圖直接轉換成程式碼,或讓它「看懂」應用程式的錯誤截圖來輔助除錯。
簡單來說,GLM-4.5V 的出現,讓 AI 更接近人類的「眼腦協同」工作模式,而不僅僅是一個會聊天的機器。
開源的力量:人人都能觸及的頂尖技術
最讓人興奮的一點是,智譜 AI 選擇將如此強大的 GLM-4.5V 開源。
這意味著,無論你是獨立開發者、學術研究者,還是新創公司的工程師,現在都可以透過 Hugging Face 平台下載模型,或透過 API 服務,將這個頂尖的視覺推理能力整合到自己的應用程式中。
開源的決定,無疑會極大地加速整個 AI 生態系的創新。我們可以預見,未來將會湧現出更多基於 GLM-4.5V 的有趣應用,從智慧教育、醫療影像分析到互動娛樂,可能性無窮。
總結來說,GLM-4.5V 不僅僅是一個性能強大的新模型,它更像是智譜 AI 向全球開發者發出的一封邀請函,邀請大家共同探索多模態 AI 的未來。這場由視覺和語言共同驅動的技術革命,才正要開始。


