GLM-4.6V 登場：視覺感知與執行動作的無縫整合

GLM-4.6V 系列模型正式亮相，帶來 106B 與 9B 兩個版本，分別針對雲端高效能與本地低延遲場景。本文將解析其原生 Function Calling 能力如何打通「看」與「做」的界線，並深入探討其長文檔理解、前端代碼生成以及混合圖文創作的實際應用。同時附上詳細評測數據與部署資源。

視覺模型的新里程碑：不僅僅是「看懂」

人工智能領域的發展總讓人目不暇給。才剛習慣語言模型能說會道，多模態模型（Multimodal AI）又把標準拉高了一個檔次。這次 GLM-4.6V 的發布，帶來了一個相當有趣的訊號：模型不再滿足於「看圖說話」，它們開始嘗試「看圖辦事」。

GLM-4.6V 系列推出了兩個版本。一個是針對雲端和高效能運算集群設計的基礎模型 GLM-4.6V (106B)，另一個則是為了本地部署和低延遲應用優化的輕量級模型 GLM-4.6V-Flash (9B)。這兩款模型在訓練時都將上下文窗口擴展到了 128k token，這意味著它們能一次處理的資訊量相當驚人。

這不僅僅是參數量的堆疊。這次更新最核心的突破在於「原生 Function Calling（函數調用）」的整合。這聽起來可能有點技術化，但簡單來說，這就是讓 AI 從一個只會評論的觀察者，變成了一個能動手解決問題的執行者。

打通感知與行動：原生視覺驅動的工具使用

以往的多模態模型在處理任務時，通常需要先把看到的圖片轉成文字描述，再根據文字去調用工具。這中間的轉換往往會丟失細節，甚至產生誤解。

GLM-4.6V 採取了不同的路徑。它引入了 Native Multimodal Function Calling。這意味著，圖片、螢幕截圖或是文檔頁面，可以直接作為工具的輸入參數，不需要經過文字轉換這道手續。想像一下，當你把一張複雜的報表截圖丟給模型，它不需要先「翻譯」成文字，而是直接「看著」圖片去調用搜尋工具或計算工具，最後輸出的結果（不管是圖表還是渲染後的頁面）也能直接整合進推理鏈中。

這真正實現了從「視覺感知」到「理解」，再到「執行」的閉環。對於開發者來說，這為構建能夠處理真實商業場景的 AI Agent（代理人）提供了更統一的技術地基。

混合圖文創作：像人類一樣組織內容

內容創作者可能會對 Interleaved Image-Text Content Generation（交錯圖文內容生成）這個功能特別感興趣。

過去我們讓 AI 寫文章配圖，通常是分開進行的：先寫字，再找圖。但 GLM-4.6V 能夠處理包含文檔、用戶輸入和工具檢索圖片在內的多模態語境。它在生成內容的過程中，會主動調用搜尋和檢索工具，收集並篩選額外的文字和視覺素材。

最終生成的結果，是根據任務量身定做的、圖文並茂的連貫內容。這就像是一位經驗豐富的編輯，懂得在文字的關鍵處插入佐證的圖片，而不是生硬地拼湊素材。

長文檔與複雜圖表的剋星

在處理商業文件時，最讓人頭痛的往往是那些格式複雜的 PDF 或掃描件。GLM-4.6V 具備 Multimodal Document Understanding 能力，可以處理高達 128K token 的多文檔或長文檔輸入。

這有個很大的優勢：它把格式豐富的頁面直接當作圖片來理解。也就是說，它能同時讀懂文字、排版、圖表、表格和圖片。這避免了傳統 OCR（光學字元識別）技術先把所有東西轉成純文字時，丟失排版結構或表格錯位的問題。對於需要分析大量財報或技術手冊的專業人士來說，這能節省大量的校對時間。

前端工程師的 AI 助手：從截圖到代碼

對於網頁開發者而言，Frontend Replication & Visual Editing 是一個非常實用的功能。

你只需要給模型一張 UI 截圖，它就能從像素層面還原出對應的 HTML 和 CSS 代碼。它會視覺化地檢測佈局、組件和樣式，生成乾淨的代碼。更厲害的是，它支持自然語言驅動的修改。如果你覺得某個按鈕的顏色不對，或者佈局太擠，只需要像跟設計師說話一樣下達指令，模型就會進行迭代式的視覺修改。

性能評測：106B 與 9B 的實力對決

說了這麼多功能，實際表現如何？我們來看看具體的評測數據。這份表格展示了 GLM-4.6V 兩個版本在各項基準測試中的得分。

值得注意的是，雖然 Flash 版本（9B）參數較小，但在許多任務上與 106B 版本的差距並不大，這顯示了其極高的性價比，非常適合資源受限的本地部署。

GLM-4.6V 系列基準測試結果

基準測試 (Benchmarks)	GLM-4.6V (106B)	GLM-4.6V-Flash (9B)	GLM-4.5V (106B)	Qwen3-VL-8B	Kimi-VL-A3B
General VQA (通用視覺問答)
MMBench V1.1	88.8	86.9	88.2	84.3	84.4
MMBench V1.1 (CN)	88.2	85.9	88.3	83.3	80.7
MMStar	75.9	74.7	75.3	75.3	70.4
BLINK (Val)	65.5	65.5	65.3	64.7	53.5
MUIRBENCH	77.1	75.7	75.3	76.8	63.8
Multimodal Reasoning (多模態推理)
MMMU (Val)	76.0	71.1	75.4	74.1	64.0
MMMU_Pro	66.0	60.6	65.2	60.4	46.3
VideoMMMU	74.7	70.1	72.4	72.8	65.2
MathVista	85.2	82.7	84.6	81.4	80.1
AI2D	88.8	89.2	88.1	84.9	81.9
Multimodal Agentic (多模態代理)
Design2Code	88.6	69.8	82.2	56.6	38.8
Flame-React-Eval	86.3	78.8	82.5	56.3	36.3
OSWorld	37.2	21.1	35.8	33.9	8.2
AndroidWorld	57.0	42.7	57.0	50.0	-
WebVoyager	81.0	71.8	84.4	47.7	-
OCR & Chart (文字識別與圖表)
OCRBench	86.5	84.7	86.5	81.9	86.9
ChartQAPro	65.5	62.6	64.0	58.4	23.7
Spatial & Grounding (空間與定位)
RefCOCO-avg (val)	88.6	85.6	91.3	89.3	33.6
Ref-L4-test	88.9	87.7	89.5	88.6	51.3

從數據中可以看出，GLM-4.6V 在多模態代理（Agentic）和推理（Reasoning）方面的提升尤為明顯，這印證了其在「行動執行」能力上的強化。

如何獲取與部署

對於想要嘗試這款模型的開發者，現在已經可以通過 Hugging Face 下載並使用 GLM-4.6V 系列模型。

如果你是本地部署的愛好者，習慣使用 llama.cpp 來運行模型，這裡有個小提醒。目前 llama.cpp 對於 GLM 4.5V/4.6V 的支援還處於草案階段（Draft PR），雖然社區正在積極推進，但可能還不夠穩定。有興趣追蹤進度或參與測試的朋友，可以關注這個 GitHub Pull Request #16600。

這也意味著，要在本地完美運行這個新模型，可能還需要再等一小段時間，或者你需要具備一定的除錯能力來處理尚未合併的代碼。

常見問題解答 (FAQ)

為了幫助大家更快速地理解 GLM-4.6V 的特點，以下整理了幾個核心問答：

Q1：GLM-4.6V 和 GLM-4.6V-Flash 的主要區別是什麼？ GLM-4.6V (106B) 是針對雲端和高性能集群設計的旗艦模型，適合處理最複雜的推理和多模態任務；而 GLM-4.6V-Flash (9B) 則是輕量級版本，專為本地部署和低延遲場景優化，雖然參數較少，但在許多基準測試中仍展現出接近旗艦模型的實力。

Q2：什麼是「原生多模態 Function Calling」？ 這意味著模型可以直接接收圖像（如截圖、文檔）作為工具的輸入參數，而無需先將圖像轉換為文字。這讓模型能夠更精準地「看圖操作」，例如直接根據錯誤截圖調用搜索工具，大大提升了 AI Agent 在真實業務場景中的執行效率。

Q3：我可以用它來寫網頁代碼嗎？ 可以的。GLM-4.6V 具備前端復刻與視覺編輯能力。你可以上傳一張 UI 截圖，模型會生成對應的 HTML 和 CSS 代碼。你甚至可以用自然語言指令（例如「把按鈕調大一點」）來讓模型修改代碼，直到效果滿意為止。

Q4：現在可以在本地設備上運行 GLM-4.6V 嗎？ 理論上可以，特別是 9B 的 Flash 版本非常適合本地運行。不過，主流的本地推理框架 llama.cpp 對該系列的支援目前仍在開發中（Draft 階段），因此普通用戶可能需要等待正式支援合併後，才能獲得最流暢的體驗。

分享至:

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

Recommended for You

G …

tool

Google Gemma 4 完整解析：跨越硬體限制、輕量與強大兼備的最強開源模型

Google Gemma 4 完整解析：跨越硬體限制，輕巧與運算力兼具的開源 AI 模型想在智慧型手機或邊緣設備上流暢運行高階 AI 嗎？Google 最新推出的 Gemma 4 模型帶來了效能與資源消耗的絕佳平衡。本文詳細解析 E2B、E4B、26B 與 31B 四大版本差異，探討其原生音訊輸入功能、超長文本處理能力，以及如何透過友善的 Apache 2.0 授權條款，將開源技術無縫應用於邊緣運算與雲端工作站。當 AI 技術每天都在推陳出新，開發者面臨的挑戰也日益嚴苛。過去只要能讓機器順利回答問題就足以令人驚豔。現在大家追求的是更聰明的邏輯推演與自主執行任務的能力。你知道嗎？要在有限的硬體資源下實現這些進階功能，向來是個令人頭痛的難題。為了解決這個痛點，Google 正式釋出了迄今為止最智能的開源模型 Gemma 4。這款模型建立在與 Gemini 3 相同的世界級研究基礎上。它特別針對進階推理與代理工作流程 (Agentic workflows) 進行了最佳化。最棒的一點在於，Gemma 4 全面採用了對商業極度友善的 Apache 2.0 授權條款。這賦予了企業與開發者百分之百的資料掌控權與數位主權。以下將針對 Gemma 4 的核心特色進行詳盡拆解，帶領大家了解這款模型如何跨越硬體的藩籬。四大版本全解析：從輕量級設備到雲端工作站為了適應截然不同的硬體環境，Gemma 4 這次端出了四種尺寸的變體。說實話，這是一個非常聰明的做法。畢竟每位開發者的部署環境都不一樣。無論是要在 Android 手機上進行本地端運算，還是要在高階 GPU 伺服器上進行微調，這裡都有對應的解方。

Apr 3, 2026 Read →

K …

tool

Kimi K2.5 模型解析：開源界的新標竿，視覺程式碼與多代理協作的實力展現

Moonshot AI 發布最新開源模型 Kimi K2.5，具備原生多模態能力與強大的「蜂群代理」技術。本文將詳細剖析其在視覺程式碼生成、多代理協作及複雜辦公任務上的突破性表現，並探討其如何以更低的成本達成超越單一代理的效率。技術圈最近有個令人興奮的消息，Moonshot AI 正式推出了 Kimi K2.5。這不僅僅是一個普通的模型更新，它是目前最強大的開源模型之一。經過大約 15T（兆）個混合視覺與文本 Token 的持續預訓練，K2.5 在程式碼編寫、視覺理解以及代理協作（Agent Swarm）方面，都展現了令人印象深刻的實力。對於開發者和專業工作者來說，這意味著什麼？簡單來說，它能看得懂你給的影片，寫出有美感的網頁，甚至能指揮一百個 AI 小幫手同時幫你查資料。我們這就來看看 Kimi K2.5 的幾個核心亮點。視覺與程式碼的完美融合：懂美感的工程師以前我們讓 AI 寫網頁，通常只能得到結構正確但外觀樸素的程式碼。但 Kimi K2.5 打破了這個限制。它內建了原生的多模態能力，這讓它在處理「視覺程式碼」（Coding with Vision）時顯得游刃有餘。你可以試著把一個網站的操作影片丟給它，或者給它一張設計草圖，K2.5 能夠理解其中的視覺邏輯、佈局互動，甚至是動畫效果。它不再只是單純地翻譯文字指令，而是像一個有經驗的前端工程師，能夠理解「美感」與「使用者體驗」。舉個例子，如果你想要一個類似馬蒂斯（Matisse）畫作風格的網頁，K2.5 不僅能生成程式碼，還能透過視覺除錯（Visual Debugging）來自我修正，確保最終呈現的效果符合藝術美感。這種從影片或圖像直接轉換為互動式介面、且包含豐富滾動特效的能力，大幅降低了將創意轉化為成品的門檻。蜂群代理系統：以一當百的並行處理能力這大概是 K2.5 最具科幻感的功能了。面對複雜的難題，單打獨鬥往往效率低落。Kimi K2.5 引入了「蜂群代理」（Agent Swarm）的概念。這不是單純的多工處理，而是一個能夠自我指揮的協作系統。想像一下，你需要調查一百個不同領域的利基市場。傳統的 AI 代理可能需要一步一步、一個一個去搜尋，耗時且容易出錯。但在 K2.5 的架構下，主代理（Orchestrator）會自動將任務拆解，並指揮多達 100 個子代理（Sub-agents）同時開工。這些子代理就像是一個訓練有素的團隊，並行執行多達 1,500 次的工具調用。這帶來了什麼改變？速度提升：相較於單一代理模式，執行時間縮短了 4.5 倍。自動編排：使用者不需要預先定義工作流程，K2.5 會根據任務需求，動態生成並管理這些子代理。這種並行處理能力，讓 Kimi K2.5 在處理廣度搜尋（Wide Search）這類任務時，展現出驚人的效率。辦公生產力的實質躍升：解決真實世界的繁重工作在實際的辦公場景中，我們面對的往往不是簡單的問答，而是高密度、長篇幅的資料處理。Kimi K2.5 特別針對這一點進行了優化。

Jan 29, 2026 Read →

S …

tool

StepFun Step-Audio-R1.1 登場：超越 GPT-4o 與 Gemini 的語音推理新霸主

在語音 AI 的競賽場上，大家總是習慣盯著 OpenAI 或 Google 的最新動態，期待他們端出下一個震撼世界的產品。但就在最近，一個開源權重模型無聲無息地爬上了排行榜的頂端，讓許多科技巨頭感到汗顏。這款名為 Step-Audio-R1.1 的模型，由 StepFun（階躍星辰）開發，它不僅在語音推理能力上刷新了紀錄，更在即時互動的流暢度上展現了驚人的實力。如果您以為這只是另一個普通的語音模型，那可就大錯特錯了。它在 Artificial Analysis 的語音推理基準測試（Speech Reasoning benchmark）中，以 96.4% 的準確率拿下了冠軍寶座，直接將 Grok、Gemini 乃至 GPT-Realtime 甩在身後。這究竟是怎麼做到的？讓我們來拆解這項技術背後的秘密。語音推理的新高度：數據不會說謊讓我們先來看看最直觀的數據表現。根據 Artificial Analysis 的 Big Bench Audio 數據集測試結果，Step-Audio-R1.1 展現了壓倒性的優勢。在這份榜單上，排在第二名的 Grok Voice Agent 成績是 92.3%，而廣受關注的 GPT-4o Realtime Preview 則落在 66% 到 68% 之間。這意味著什麼？這代表在處理複雜的語音指令、理解語境以及進行邏輯推演時，Step-Audio-R1.1 的表現比目前市面上昂貴的商業模型還要精準。這並非單純的語音轉文字再處理，而是真正的「端到端」（End-to-End）語音原生推理。模型直接聽懂了聲音中的邏輯，而不是依賴文字轉錄的中介。對於開發者與研究人員來說，這是一個激動人心的消息，尤其是當您可以在 Hugging Face 下載 Step-Audio-R1.1 的權重，親自驗證這項技術時，這種震撼感會更加真實。速度與智慧的博弈：打破傳統權衡長期以來，AI 領域存在一個難以忽視的矛盾：想要模型更聰明，通常就得犧牲反應速度；想要反應快，往往就得犧牲推理的深度。但在即時語音對話中，延遲是使用者體驗的殺手。沒人喜歡對著一個還要思考五秒鐘才能回話的 AI 聊天，那種尷尬的沉默會毀掉所有的沉浸感。 Step-Audio-R1.1 透過一種被稱為「思維配速說話」（Mind-Paced Speaking）的技術，巧妙地解決了這個難題。您可以把它想像成一位經驗豐富的演講者，他們不需要停下來長時間思考，而是能夠邊說邊想，組織語言的同時也在進行深層邏輯推演。這得益於其獨特的雙腦架構（Dual-Brain Architecture）：構思大腦（Formulation Brain）：負責高層次的邏輯推理與內容規劃。表達大腦（Articulation Brain）：專注於語音生成的流暢度與自然度。這種分工合作的機制，讓模型能夠在輸出的同時進行「思維鏈」（Chain-of-Thought）推理。結果就是，它既能保持極低的延遲，又能處理複雜的任務，完全不需要在速度與智慧之間做取捨。想體驗這種流暢感的朋友，可以前往 ModelScope 的 Demo 頁面試試看。

Jan 16, 2026 Read →