tool

GLM-4.6V 登場:視覺感知與執行動作的無縫整合

December 9, 2025
Updated Dec 9
2 min read

GLM-4.6V 系列模型正式亮相,帶來 106B 與 9B 兩個版本,分別針對雲端高效能與本地低延遲場景。本文將解析其原生 Function Calling 能力如何打通「看」與「做」的界線,並深入探討其長文檔理解、前端代碼生成以及混合圖文創作的實際應用。同時附上詳細評測數據與部署資源。


視覺模型的新里程碑:不僅僅是「看懂」

人工智能領域的發展總讓人目不暇給。才剛習慣語言模型能說會道,多模態模型(Multimodal AI)又把標準拉高了一個檔次。這次 GLM-4.6V 的發布,帶來了一個相當有趣的訊號:模型不再滿足於「看圖說話」,它們開始嘗試「看圖辦事」。

GLM-4.6V 系列推出了兩個版本。一個是針對雲端和高效能運算集群設計的基礎模型 GLM-4.6V (106B),另一個則是為了本地部署和低延遲應用優化的輕量級模型 GLM-4.6V-Flash (9B)。這兩款模型在訓練時都將上下文窗口擴展到了 128k token,這意味著它們能一次處理的資訊量相當驚人。

這不僅僅是參數量的堆疊。這次更新最核心的突破在於「原生 Function Calling(函數調用)」的整合。這聽起來可能有點技術化,但簡單來說,這就是讓 AI 從一個只會評論的觀察者,變成了一個能動手解決問題的執行者。

打通感知與行動:原生視覺驅動的工具使用

以往的多模態模型在處理任務時,通常需要先把看到的圖片轉成文字描述,再根據文字去調用工具。這中間的轉換往往會丟失細節,甚至產生誤解。

GLM-4.6V 採取了不同的路徑。它引入了 Native Multimodal Function Calling。這意味著,圖片、螢幕截圖或是文檔頁面,可以直接作為工具的輸入參數,不需要經過文字轉換這道手續。想像一下,當你把一張複雜的報表截圖丟給模型,它不需要先「翻譯」成文字,而是直接「看著」圖片去調用搜尋工具或計算工具,最後輸出的結果(不管是圖表還是渲染後的頁面)也能直接整合進推理鏈中。

這真正實現了從「視覺感知」到「理解」,再到「執行」的閉環。對於開發者來說,這為構建能夠處理真實商業場景的 AI Agent(代理人)提供了更統一的技術地基。

混合圖文創作:像人類一樣組織內容

內容創作者可能會對 Interleaved Image-Text Content Generation(交錯圖文內容生成)這個功能特別感興趣。

過去我們讓 AI 寫文章配圖,通常是分開進行的:先寫字,再找圖。但 GLM-4.6V 能夠處理包含文檔、用戶輸入和工具檢索圖片在內的多模態語境。它在生成內容的過程中,會主動調用搜尋和檢索工具,收集並篩選額外的文字和視覺素材。

最終生成的結果,是根據任務量身定做的、圖文並茂的連貫內容。這就像是一位經驗豐富的編輯,懂得在文字的關鍵處插入佐證的圖片,而不是生硬地拼湊素材。

長文檔與複雜圖表的剋星

在處理商業文件時,最讓人頭痛的往往是那些格式複雜的 PDF 或掃描件。GLM-4.6V 具備 Multimodal Document Understanding 能力,可以處理高達 128K token 的多文檔或長文檔輸入。

這有個很大的優勢:它把格式豐富的頁面直接當作圖片來理解。也就是說,它能同時讀懂文字、排版、圖表、表格和圖片。這避免了傳統 OCR(光學字元識別)技術先把所有東西轉成純文字時,丟失排版結構或表格錯位的問題。對於需要分析大量財報或技術手冊的專業人士來說,這能節省大量的校對時間。

前端工程師的 AI 助手:從截圖到代碼

對於網頁開發者而言,Frontend Replication & Visual Editing 是一個非常實用的功能。

你只需要給模型一張 UI 截圖,它就能從像素層面還原出對應的 HTML 和 CSS 代碼。它會視覺化地檢測佈局、組件和樣式,生成乾淨的代碼。更厲害的是,它支持自然語言驅動的修改。如果你覺得某個按鈕的顏色不對,或者佈局太擠,只需要像跟設計師說話一樣下達指令,模型就會進行迭代式的視覺修改。

性能評測:106B 與 9B 的實力對決

說了這麼多功能,實際表現如何?我們來看看具體的評測數據。這份表格展示了 GLM-4.6V 兩個版本在各項基準測試中的得分。

值得注意的是,雖然 Flash 版本(9B)參數較小,但在許多任務上與 106B 版本的差距並不大,這顯示了其極高的性價比,非常適合資源受限的本地部署。

GLM-4.6V 系列基準測試結果

基準測試 (Benchmarks)GLM-4.6V (106B)GLM-4.6V-Flash (9B)GLM-4.5V (106B)Qwen3-VL-8BKimi-VL-A3B
General VQA (通用視覺問答)
MMBench V1.188.886.988.284.384.4
MMBench V1.1 (CN)88.285.988.383.380.7
MMStar75.974.775.375.370.4
BLINK (Val)65.565.565.364.753.5
MUIRBENCH77.175.775.376.863.8
Multimodal Reasoning (多模態推理)
MMMU (Val)76.071.175.474.164.0
MMMU_Pro66.060.665.260.446.3
VideoMMMU74.770.172.472.865.2
MathVista85.282.784.681.480.1
AI2D88.889.288.184.981.9
Multimodal Agentic (多模態代理)
Design2Code88.669.882.256.638.8
Flame-React-Eval86.378.882.556.336.3
OSWorld37.221.135.833.98.2
AndroidWorld57.042.757.050.0-
WebVoyager81.071.884.447.7-
OCR & Chart (文字識別與圖表)
OCRBench86.584.786.581.986.9
ChartQAPro65.562.664.058.423.7
Spatial & Grounding (空間與定位)
RefCOCO-avg (val)88.685.691.389.333.6
Ref-L4-test88.987.789.588.651.3

從數據中可以看出,GLM-4.6V 在多模態代理(Agentic)和推理(Reasoning)方面的提升尤為明顯,這印證了其在「行動執行」能力上的強化。

如何獲取與部署

對於想要嘗試這款模型的開發者,現在已經可以通過 Hugging Face 下載並使用 GLM-4.6V 系列模型。

如果你是本地部署的愛好者,習慣使用 llama.cpp 來運行模型,這裡有個小提醒。目前 llama.cpp 對於 GLM 4.5V/4.6V 的支援還處於草案階段(Draft PR),雖然社區正在積極推進,但可能還不夠穩定。有興趣追蹤進度或參與測試的朋友,可以關注這個 GitHub Pull Request #16600

這也意味著,要在本地完美運行這個新模型,可能還需要再等一小段時間,或者你需要具備一定的除錯能力來處理尚未合併的代碼。

常見問題解答 (FAQ)

為了幫助大家更快速地理解 GLM-4.6V 的特點,以下整理了幾個核心問答:

Q1:GLM-4.6V 和 GLM-4.6V-Flash 的主要區別是什麼? GLM-4.6V (106B) 是針對雲端和高性能集群設計的旗艦模型,適合處理最複雜的推理和多模態任務;而 GLM-4.6V-Flash (9B) 則是輕量級版本,專為本地部署和低延遲場景優化,雖然參數較少,但在許多基準測試中仍展現出接近旗艦模型的實力。

Q2:什麼是「原生多模態 Function Calling」? 這意味著模型可以直接接收圖像(如截圖、文檔)作為工具的輸入參數,而無需先將圖像轉換為文字。這讓模型能夠更精準地「看圖操作」,例如直接根據錯誤截圖調用搜索工具,大大提升了 AI Agent 在真實業務場景中的執行效率。

Q3:我可以用它來寫網頁代碼嗎? 可以的。GLM-4.6V 具備前端復刻與視覺編輯能力。你可以上傳一張 UI 截圖,模型會生成對應的 HTML 和 CSS 代碼。你甚至可以用自然語言指令(例如「把按鈕調大一點」)來讓模型修改代碼,直到效果滿意為止。

Q4:現在可以在本地設備上運行 GLM-4.6V 嗎? 理論上可以,特別是 9B 的 Flash 版本非常適合本地運行。不過,主流的本地推理框架 llama.cpp 對該系列的支援目前仍在開發中(Draft 階段),因此普通用戶可能需要等待正式支援合併後,才能獲得最流暢的體驗。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.