tool

0.9B 參數挑戰 SOTA!智譜 GLM-OCR 開源:讓文檔解析快 10 倍

February 3, 2026
Updated Feb 3
1 min read

智譜 AI 開源 GLM-OCR 模型,僅 0.9B 參數卻在複雜表格與公式識別上達到 SOTA 水平。性能直逼 GPT-5.2 與 Gemini-3-Pro,推理成本僅為傳統 OCR 的十分之一。立即了解如何部署這款輕量級文檔解析神器,實現 Markdown 與 JSON 結構化直出!


說實話,過去幾年的 AI 發展似乎讓人產生了一種迷思:只要模型參數量夠大,就能解決所有問題。各家科技巨頭爭相推出數百億、甚至千億參數的多模態大模型。然而,當開發者與企業真正要將這些巨無霸落地應用時,高昂的算力成本和令人崩潰的延遲往往成了最大的攔路虎。

難道沒有更輕便、更聰明的解法嗎?

智譜 AI 最新推出的 GLM-OCR 正好打破了這個僵局。這款輕量級專業 OCR 模型,參數規模僅有 0.9B。仔細想想看,不到 1B 的體積,聽起來似乎微不足道。但根據權威榜單 OmniDocBench V1.5 的最新數據,這款「小尺寸」模型卻以 94.62 分登頂,甚至在許多核心場景中超越了閉源大模型 GPT-5.2 與 Gemini-3-Pro。

這不單純是一次技術更新,而是一次效率的全面重塑。

以小博大:極致性價比與速度

要衡量一款工具的實用性,速度絕對是硬指標。在相同的硬體環境與單副本測試條件下,GLM-OCR 展現了驚人的吞吐量。處理 PDF 文檔時,它能達到每秒 1.86 頁的速度,處理單張圖片也能達到每秒 0.67 張。這樣的表現顯著優於同類模型。

更重要的是部署的靈活性。由於參數量僅 0.9B,它完美支持 vLLM 和 SGLang 等主流框架部署。這意味著企業可以在本地伺服器,甚至算力有限的邊緣設備上運行這套系統。根據智譜官方的技術文檔顯示,這種輕量化設計讓推理延遲與算力開銷大幅降低,整體的運行成本大約只有傳統 OCR 方案的十分之一。

專攻「難啃」的文檔,連手寫公式也不放過

傳統 OCR 工具面對工整的印刷體時表現尚可,但一旦遇到真實業務場景中混亂的版式,往往就束手無策了。不管是傾斜的掃描件、蓋滿印章的發票,還是手寫的數學公式,向來都是文檔解析的重災區。

GLM-OCR 針對這些複雜場景進行了專門的優化。在包含代碼文檔、複雜表格、印章等元素的測試中,它的識別準確度依然出色。以最讓人頭痛的數學公式識別為例,在 UniMERNet 基準測試中,GLM-OCR 拿下了 96.5 的高分,甚至超越了 GPT-5.2 的 90.5 分。

想像一下,一個學生拍下寫滿凌亂微積分公式的筆記本,系統能在幾秒鐘內精準識別並轉換為數位文字,這對教育科技與科研輔助領域來說,無疑解決了長久以來的痛點。

告別繁瑣後處理:Markdown 與 JSON 結構化直出

對於開發者來說,OCR 識別出純文本只是第一步,如何將這些散亂的文字重新排版、建立結構,才是真正耗時的工作。

這裡就有一個非常實用的亮點。GLM-OCR 支持直接導出 Markdown 文檔和圖片鏈接。這意味著文檔原有的標題層級、段落與列表都能被完美保留。此外,它還具備強大的資訊結構化提取能力,能夠返回符合預定義格式的 JSON 數據。

現在的大型語言模型應用大多依賴 RAG(檢索增強生成)系統。有了結構化的 Markdown 和 JSON 輸出,這些數據可以直接無縫對接到向量資料庫中,徹底省去了繁瑣的文本清洗步驟。想要研究源代碼的技術人員,可以直接前往 GLM-OCR 的 GitHub 專案頁面 獲取相關資源。

隱藏在 0.9B 背後的技術密碼

那麼,究竟是怎樣的架構讓這個小模型擁有如此強大的「視力」?

答案在於自研的 CogViT 視覺編碼器。這套架構基於大規模圖文數據預訓練,結合了 0.5B 的語言解碼器。開發團隊巧妙地引入了多 token 預測損失函數與全任務強化學習策略。這種設計提升了模型的泛化能力,讓它能夠精準理解版式極其複雜的文檔。

這項技術已經完全開源。感興趣的開發者可以在 Hugging Face 平台 下載模型權重,實際體驗其背後的技術魅力。

多語言與超大文件支持:實用性拉滿

很多人可能會好奇,這款模型是否只針對中文做了優化?答案是否定的。GLM-OCR 支持的語言相當廣泛,涵蓋了中文、英文、法語、西班牙語、俄羅斯語、德語、日語、韓語等多國語言,在跨國業務場景中依然游刃有餘。

對於輸入限制,系統也給出了極大的寬容度。單張圖片支援高達 10 MB,PDF 文件最高可支援 50 MB 或 100 頁。這種規格已經足以應付絕大多數的財報、招股書或大型合約文檔。

API 調用:一元錢能做多少事?

最後來談談大家都關心的價格問題。對於不想自行部署模型的用戶,智譜提供了極具競爭力的 API 服務。輸入與輸出的價格相同,僅需 0.2 元人民幣 / 百萬 Tokens。

這到底有多便宜?換算下來,1 元人民幣大約可以處理 2000 張 A4 大小的掃描圖片,或者 200 份十頁長度的簡單排版 PDF。這種接近免費的定價策略,讓即使是預算有限的小型創業公司,也能輕鬆實現文檔數位化。

無論是追求極致性價比的企業,還是需要精準解析複雜公式的研究人員,這款兼具「小尺寸」與「高精度」的模型,都值得放入您的工具箱中。畢竟,解決複雜問題,有時候只需要一個輕巧且聰明的答案。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.