GLM-4.6V 系列模型正式亮相,帶來 106B 與 9B 兩個版本,分別針對雲端高效能與本地低延遲場景。本文將解析其原生 Function Calling 能力如何打通「看」與「做」的界線,並深入探討其長文檔理解、前端代碼生成以及混合圖文創作的實際應用。同時附上詳細評測數據與部署資源。
視覺模型的新里程碑:不僅僅是「看懂」
人工智能領域的發展總讓人目不暇給。才剛習慣語言模型能說會道,多模態模型(Multimodal AI)又把標準拉高了一個檔次。這次 GLM-4.6V 的發布,帶來了一個相當有趣的訊號:模型不再滿足於「看圖說話」,它們開始嘗試「看圖辦事」。
GLM-4.6V 系列推出了兩個版本。一個是針對雲端和高效能運算集群設計的基礎模型 GLM-4.6V (106B),另一個則是為了本地部署和低延遲應用優化的輕量級模型 GLM-4.6V-Flash (9B)。這兩款模型在訓練時都將上下文窗口擴展到了 128k token,這意味著它們能一次處理的資訊量相當驚人。
這不僅僅是參數量的堆疊。這次更新最核心的突破在於「原生 Function Calling(函數調用)」的整合。這聽起來可能有點技術化,但簡單來說,這就是讓 AI 從一個只會評論的觀察者,變成了一個能動手解決問題的執行者。
打通感知與行動:原生視覺驅動的工具使用
以往的多模態模型在處理任務時,通常需要先把看到的圖片轉成文字描述,再根據文字去調用工具。這中間的轉換往往會丟失細節,甚至產生誤解。
GLM-4.6V 採取了不同的路徑。它引入了 Native Multimodal Function Calling。這意味著,圖片、螢幕截圖或是文檔頁面,可以直接作為工具的輸入參數,不需要經過文字轉換這道手續。想像一下,當你把一張複雜的報表截圖丟給模型,它不需要先「翻譯」成文字,而是直接「看著」圖片去調用搜尋工具或計算工具,最後輸出的結果(不管是圖表還是渲染後的頁面)也能直接整合進推理鏈中。
這真正實現了從「視覺感知」到「理解」,再到「執行」的閉環。對於開發者來說,這為構建能夠處理真實商業場景的 AI Agent(代理人)提供了更統一的技術地基。
混合圖文創作:像人類一樣組織內容
內容創作者可能會對 Interleaved Image-Text Content Generation(交錯圖文內容生成)這個功能特別感興趣。
過去我們讓 AI 寫文章配圖,通常是分開進行的:先寫字,再找圖。但 GLM-4.6V 能夠處理包含文檔、用戶輸入和工具檢索圖片在內的多模態語境。它在生成內容的過程中,會主動調用搜尋和檢索工具,收集並篩選額外的文字和視覺素材。
最終生成的結果,是根據任務量身定做的、圖文並茂的連貫內容。這就像是一位經驗豐富的編輯,懂得在文字的關鍵處插入佐證的圖片,而不是生硬地拼湊素材。
長文檔與複雜圖表的剋星
在處理商業文件時,最讓人頭痛的往往是那些格式複雜的 PDF 或掃描件。GLM-4.6V 具備 Multimodal Document Understanding 能力,可以處理高達 128K token 的多文檔或長文檔輸入。
這有個很大的優勢:它把格式豐富的頁面直接當作圖片來理解。也就是說,它能同時讀懂文字、排版、圖表、表格和圖片。這避免了傳統 OCR(光學字元識別)技術先把所有東西轉成純文字時,丟失排版結構或表格錯位的問題。對於需要分析大量財報或技術手冊的專業人士來說,這能節省大量的校對時間。
前端工程師的 AI 助手:從截圖到代碼
對於網頁開發者而言,Frontend Replication & Visual Editing 是一個非常實用的功能。
你只需要給模型一張 UI 截圖,它就能從像素層面還原出對應的 HTML 和 CSS 代碼。它會視覺化地檢測佈局、組件和樣式,生成乾淨的代碼。更厲害的是,它支持自然語言驅動的修改。如果你覺得某個按鈕的顏色不對,或者佈局太擠,只需要像跟設計師說話一樣下達指令,模型就會進行迭代式的視覺修改。
性能評測:106B 與 9B 的實力對決
說了這麼多功能,實際表現如何?我們來看看具體的評測數據。這份表格展示了 GLM-4.6V 兩個版本在各項基準測試中的得分。
值得注意的是,雖然 Flash 版本(9B)參數較小,但在許多任務上與 106B 版本的差距並不大,這顯示了其極高的性價比,非常適合資源受限的本地部署。
GLM-4.6V 系列基準測試結果
| 基準測試 (Benchmarks) | GLM-4.6V (106B) | GLM-4.6V-Flash (9B) | GLM-4.5V (106B) | Qwen3-VL-8B | Kimi-VL-A3B |
|---|---|---|---|---|---|
| General VQA (通用視覺問答) | |||||
| MMBench V1.1 | 88.8 | 86.9 | 88.2 | 84.3 | 84.4 |
| MMBench V1.1 (CN) | 88.2 | 85.9 | 88.3 | 83.3 | 80.7 |
| MMStar | 75.9 | 74.7 | 75.3 | 75.3 | 70.4 |
| BLINK (Val) | 65.5 | 65.5 | 65.3 | 64.7 | 53.5 |
| MUIRBENCH | 77.1 | 75.7 | 75.3 | 76.8 | 63.8 |
| Multimodal Reasoning (多模態推理) | |||||
| MMMU (Val) | 76.0 | 71.1 | 75.4 | 74.1 | 64.0 |
| MMMU_Pro | 66.0 | 60.6 | 65.2 | 60.4 | 46.3 |
| VideoMMMU | 74.7 | 70.1 | 72.4 | 72.8 | 65.2 |
| MathVista | 85.2 | 82.7 | 84.6 | 81.4 | 80.1 |
| AI2D | 88.8 | 89.2 | 88.1 | 84.9 | 81.9 |
| Multimodal Agentic (多模態代理) | |||||
| Design2Code | 88.6 | 69.8 | 82.2 | 56.6 | 38.8 |
| Flame-React-Eval | 86.3 | 78.8 | 82.5 | 56.3 | 36.3 |
| OSWorld | 37.2 | 21.1 | 35.8 | 33.9 | 8.2 |
| AndroidWorld | 57.0 | 42.7 | 57.0 | 50.0 | - |
| WebVoyager | 81.0 | 71.8 | 84.4 | 47.7 | - |
| OCR & Chart (文字識別與圖表) | |||||
| OCRBench | 86.5 | 84.7 | 86.5 | 81.9 | 86.9 |
| ChartQAPro | 65.5 | 62.6 | 64.0 | 58.4 | 23.7 |
| Spatial & Grounding (空間與定位) | |||||
| RefCOCO-avg (val) | 88.6 | 85.6 | 91.3 | 89.3 | 33.6 |
| Ref-L4-test | 88.9 | 87.7 | 89.5 | 88.6 | 51.3 |
從數據中可以看出,GLM-4.6V 在多模態代理(Agentic)和推理(Reasoning)方面的提升尤為明顯,這印證了其在「行動執行」能力上的強化。
如何獲取與部署
對於想要嘗試這款模型的開發者,現在已經可以通過 Hugging Face 下載並使用 GLM-4.6V 系列模型。
如果你是本地部署的愛好者,習慣使用 llama.cpp 來運行模型,這裡有個小提醒。目前 llama.cpp 對於 GLM 4.5V/4.6V 的支援還處於草案階段(Draft PR),雖然社區正在積極推進,但可能還不夠穩定。有興趣追蹤進度或參與測試的朋友,可以關注這個 GitHub Pull Request #16600。
這也意味著,要在本地完美運行這個新模型,可能還需要再等一小段時間,或者你需要具備一定的除錯能力來處理尚未合併的代碼。
常見問題解答 (FAQ)
為了幫助大家更快速地理解 GLM-4.6V 的特點,以下整理了幾個核心問答:
Q1:GLM-4.6V 和 GLM-4.6V-Flash 的主要區別是什麼? GLM-4.6V (106B) 是針對雲端和高性能集群設計的旗艦模型,適合處理最複雜的推理和多模態任務;而 GLM-4.6V-Flash (9B) 則是輕量級版本,專為本地部署和低延遲場景優化,雖然參數較少,但在許多基準測試中仍展現出接近旗艦模型的實力。
Q2:什麼是「原生多模態 Function Calling」? 這意味著模型可以直接接收圖像(如截圖、文檔)作為工具的輸入參數,而無需先將圖像轉換為文字。這讓模型能夠更精準地「看圖操作」,例如直接根據錯誤截圖調用搜索工具,大大提升了 AI Agent 在真實業務場景中的執行效率。
Q3:我可以用它來寫網頁代碼嗎? 可以的。GLM-4.6V 具備前端復刻與視覺編輯能力。你可以上傳一張 UI 截圖,模型會生成對應的 HTML 和 CSS 代碼。你甚至可以用自然語言指令(例如「把按鈕調大一點」)來讓模型修改代碼,直到效果滿意為止。
Q4:現在可以在本地設備上運行 GLM-4.6V 嗎?
理論上可以,特別是 9B 的 Flash 版本非常適合本地運行。不過,主流的本地推理框架 llama.cpp 對該系列的支援目前仍在開發中(Draft 階段),因此普通用戶可能需要等待正式支援合併後,才能獲得最流暢的體驗。


