tool

智譜 AI 再出奇招!GLM-4.5V 橫空出世,問鼎開源最強視覺模型

August 12, 2025
Updated Aug 12
3 min read

AI 圈又迎來重磅消息!智譜 AI 正式發布基於 MoE 架構的新一代視覺推理模型 GLM-4.5V。它不僅在多項基準測試中稱霸,更以開源的姿態向所有開發者開放。這篇文章將帶您深入了解,為什麼 GLM-4.5V 會被譽為當前開源領域的性能怪獸。


你沒看錯,AI 的進化速度從來不會讓人失望。就在大家還在熱烈討論大型語言模型(LLM)的各種可能性時,智譜 AI (Zhipu AI) 悄悄地投下了一顆震撼彈——正式推出新一代旗艦級視覺語言模型 (VLM):GLM-4.5V

這不僅僅是一次常規的產品更新。GLM-4.5V 的出現,可以說直接拉高了整個開源社群的技術天花板。它不僅支援圖片、文字等多模態輸入,更在多個權威的基準測試中,以壓倒性的分數擊敗了眾多競爭對手,達到了所謂的 SOTA (State-of-the-Art) 水準。

那麼,這個模型到底有什麼能耐?讓我們一起來看看。

先別急著看分數,聊聊它的「心臟」—— MoE 架構

在深入探討性能之前,我們得先了解 GLM-4.5V 的核心設計:MoE (Mixture-of-Experts) 架構,也就是「混合專家」架構。

這是什麼概念呢?你可以把它想像成一個頂尖的顧問團隊。傳統的大模型就像是一位試圖精通所有領域的通才,雖然知識淵博,但在處理特定專業問題時,可能不夠深入。而 MoE 架構不同,它內部擁有多個「專家網路」,每個專家都專精於某個特定領域,例如圖像辨識、文字理解、邏輯推理等。

當模型接收到一個任務時,一個「門控網路」(Gating Network) 會聰明地判斷該把這個任務交給哪幾位專家處理最有效率。這樣做有什麼好處?

  • 更高的效率: 不再需要動用整個龐大的模型來處理所有問題。GLM-4.5V 的總參數高達 1060 億,但每次處理任務時,僅需活化約 120 億的參數。這就像你只需要請團隊裡的兩三位相關專家開會,而不是把全公司的人都叫來。
  • 更強的性能: 術業有專攻。由專門的「專家」處理特定任務,自然能取得比「通才」更好的結果。

這也是為什麼 GLM-4.5V 能在保持相對較低運算成本的同時,爆發出驚人性能的秘密武器。

數據會說話:GLM-4.5V 的驚人表現

空口無憑,我們直接來看數據。智譜 AI 公布的基準測試成績單,可以說是相當亮眼。在這份詳細的比較中,GLM-4.5V 與 Step-3、Qwen2.5-VL 等知名模型進行了正面交鋒。

老實說,結果有點一面倒。

BenchmarksGLM-4.5V (106B, A12B w/ thinking)Step-3 (321B A3B w/ thinking)Qwen2.5-VL (72B w/o thinking)GLM-4.1V (9B w/ thinking)Kimi-VL-2506 (16B A3B w/ thinking)Gemma-3 (27B w/o thinking)
General VQA
MMBench v1.188.281.1*88.085.884.480.1*
MMBench v1.1 (CN)88.381.5*86.7*84.780.7*80.8*
MMStar75.369.0*70.872.970.460.0*
BLINK (val)65.362.7*58.0*65.153.5*52.9*
MUIRBENCH75.375.0*62.9*74.763.8*50.3*
HallusionBench65.464.256.8*63.259.8*45.8*
ZeroBench (sub)23.423.019.5*19.216.2*17.7*
GeoBench79.772.974.3*76.048.0*57.5*
STEM
MMMU (val)75.474.270.268.064.062.0*
MMMU Pro65.258.651.157.146.337.4*
MathVista84.679.2*74.880.780.164.3*
MathVision65.664.838.154.454.4*39.8*
MathVerse72.162.7*47.8*68.454.6*34.0*
DynaMath53.950.136.1*42.528.1*28.5*
LogicVista62.460.2*56.2*60.451.4*47.3*
AI2D88.183.7*87.6*87.981.9*80.2*
WeMath68.859.846.0*63.842.0*37.9*
Long Document OCR & Chart
MMLongBench-Doc44.731.8*35.2*42.442.128.4*
OCRBench86.583.785.1*84.286.975.9*
ChartQAPRO64.056.446.7*59.523.7*37.6*
ChartMuseum55.340.0*39.6*48.833.6*23.9*
Visual Grounding
RefCOCO-avg (val)91.320.2*90.385.333.6*2.4*
TreeBench50.141.3*42.337.541.5*33.8*
Ref-L4-test89.512.2*80.8*86.851.3*2.5*
Spatial Reco & Reasoning
OmniSpatial51.047.0*47.947.737.3*40.8*
CV-Bench87.380.9*82.0*85.079.1*74.6*
ERQA50.044.5*44.8*45.836.0*37.5*
All-Angles Bench56.952.4*54.4*52.748.9*48.2*
GUI Agents
OSWorld35.8/8.814.98.24.4*
AndroidWorld57.0/35.041.7/34.8*
WebVoyagerSom84.4/40.4*69.0/3.4*
Webquest-SingleQA76.960.5*72.172.135.6*31.2*
Webquest-MultQA60.652.8*52.1*54.711.1*36.5*
Coding
Design2Code82.234.141.9*64.738.816.1
Flame-React-Eval82.563.846.3*72.536.327.5
Video Understanding
VideoMME (w/o sub)74.6/73.368.267.858.9*
VideoMME (w/ sub)80.7/79.173.671.968.4*
MMVU68.7/62.959.457.557.7*
VideoMMU72.4/60.261.065.254.5*
LVBench53.8/47.344.047.6*45.9*
MotionBench62.4/56.1*59.054.3*47.8*
MVBench73.0/70.468.459.7*43.5*

註:帶星號 () 的分數為實驗室重複實驗結果。*

從圖表中可以看到,GLM-4.5V 在絕大多數項目上都以粗體分數領先,特別是在通用視覺問答 (General VQA)、STEM、甚至連長文件光學字元辨識 (OCRBench) 方面的表現都相當亮眼。這證明它不僅擅長「看圖說故事」,更具備深厚的邏輯推理和專業知識理解能力。

一個有趣的點是,即使面對像 Step-3 這樣總參數高達 3210 億的巨無霸模型,GLM-4.5V 依然在多個關鍵項目上勝出。這再次證明了 MoE 架構在效率與性能上的絕佳平衡。

從測試到現實:這對我們意味著什麼?

基準測試的分數固然重要,但這些數字轉化到現實世界中,又能帶來哪些改變呢?

  • 更聰明的 AI 助理: 你可以丟給它一張會議白板的照片,它能自動整理成會議記錄;或是一張複雜的財務報表截圖,它能幫你分析關鍵數據。
  • 自動化能力再升級: 在 GUI Agents 測試中的優異表現,代表它有潛力操作軟體介面,實現真正的「軟體機器人」,自動完成訂票、填表單等繁瑣任務。
  • 開發者的得力助手: 開發者可以利用它的視覺理解能力,將 UI 設計圖直接轉換成程式碼,或讓它「看懂」應用程式的錯誤截圖來輔助除錯。

簡單來說,GLM-4.5V 的出現,讓 AI 更接近人類的「眼腦協同」工作模式,而不僅僅是一個會聊天的機器。

開源的力量:人人都能觸及的頂尖技術

最讓人興奮的一點是,智譜 AI 選擇將如此強大的 GLM-4.5V 開源

這意味著,無論你是獨立開發者、學術研究者,還是新創公司的工程師,現在都可以透過 Hugging Face 平台下載模型,或透過 API 服務,將這個頂尖的視覺推理能力整合到自己的應用程式中。

開源的決定,無疑會極大地加速整個 AI 生態系的創新。我們可以預見,未來將會湧現出更多基於 GLM-4.5V 的有趣應用,從智慧教育、醫療影像分析到互動娛樂,可能性無窮。

總結來說,GLM-4.5V 不僅僅是一個性能強大的新模型,它更像是智譜 AI 向全球開發者發出的一封邀請函,邀請大家共同探索多模態 AI 的未來。這場由視覺和語言共同驅動的技術革命,才正要開始。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.