騰訊開源 HunyuanOCR 模型：1B 參數如何挑戰 OCR 辨識極限

騰訊最新發布的 HunyuanOCR 以僅 10 億（1B）參數的輕量化設計，在 OmniDocBench 等多個權威測試中擊敗 GPT-4o 與 Gemini。本文將深入解析這款原生多模態模型的架構優勢、實測數據表現及其在文檔解析、場景文字識別與翻譯上的應用潛力。

說實話，提到 OCR（光學字元辨識）技術，大多數人腦中浮現的可能還是那些笨重、偶爾失靈的老舊掃描軟體。或者，我們會直接把圖片丟給 ChatGPT，期待它能看懂那張模糊的收據。但如果告訴你，有一個僅有 10 億參數的「小模型」，在看圖認字這件事上，竟然比那些龐大的通用模型還要精準，你敢信嗎？

這就是騰訊混元團隊最近帶來的驚喜——HunyuanOCR。

這不僅僅是一個新的開源專案，它展示了一種趨勢：在特定領域，精巧的專用模型往往能展現出驚人的爆發力。不需要動輒千億參數的算力怪獸，只要架構對了，小模型照樣能打。

輕量級與高效能的平衡藝術

我們習慣了「越大越好」的思維模式。但在 AI 的世界裡，效率有時候比規模更重要。

HunyuanOCR 的核心亮點在於它採用了原生多模態架構（Native Multimodal Architecture）。這聽起來有點饒舌？簡單來說，它不是把一個視覺模型和一個語言模型硬湊在一起，而是從一開始就是為了「看懂圖文」而生的。

為什麼 1B 參數很重要？

HunyuanOCR 只有 1B（10 億）參數。對於開發者或企業來說，這意味著極低的部署成本。你不需要租用昂貴的 H100 伺服器集群，甚至在一些邊緣設備上都有運行的可能。

儘管體積小，它卻是一個端到端（End-to-End）的專家級模型。傳統的 OCR 流程往往是「先偵測文字位置、再切割、最後辨識」，這中間只要一步出錯，結果就歪了。HunyuanOCR 則是直接看圖說話，這讓它在處理複雜排版時更加得心應手。

數據會說話：HunyuanOCR 在基準測試中的宰制力

光說不練假把戲。讓我們來看看官方釋出的 OmniDocBench 評測數據，這張圖表透露了很多有趣的細節。

文檔解析能力 (Parsing)

在 OmniDocBench 這個針對文檔解析的測試中，HunyuanOCR 拿下了 94.10 的高分，穩居第一。

請注意看排在後面的名字：

PaddleOCR-VL：92.86
GPT-4o：75.02
Marker-1.8.2：71.30

這是一個非常有趣的現象。GPT-4o 雖然是目前地表最強的通用模型，但在這種需要極度精確還原排版、識別細微文字的專業任務上，反而輸給了專精於此的 HunyuanOCR。這就好比你讓一個博學多聞的教授去參加拼字比賽，他不一定能贏過專門訓練拼字的選手。

複雜場景文字識別 (Spotting)

在 Multi-Scenes（多場景）測試中，挑戰的是「野生」圖片——路牌、招牌、混亂背景下的文字。

HunyuanOCR 取得了 70.92 的 NED 分數（Normalized Edit Distance，分數越高越好）。相比之下，Baidu-OCR 只有 61.90，而 PaddleOCR 則在 53.38。這顯示出 HunyuanOCR 在處理自然場景、光影變化或模糊文字時，具有更強的魯棒性。

翻譯與問答表現

在 DoTA（翻譯）和 OCRBench（問答）測試中，HunyuanOCR 同樣表現不俗。特別是在翻譯任務上，它與 Google 的 Gemini-2.5-Pro 互有勝負，甚至在某些指標上超越了 Qwen3-VL 系列。這意味著它不僅能「認字」，還能理解語言之間的對應關係。

解決真實世界的痛點：多語言與複雜排版

你是否遇過這種情況？掃描一份帶有表格、側邊欄註釋，甚至還有手寫筆記的 PDF，結果轉出來的 Word 檔亂成一團。

HunyuanOCR 針對的就是這種痛點。

多語言文檔解析

根據官方說明，這個模型在多語言解析上展現了「大師級」的實力。無論是中英文夾雜的技術文件，還是包含特殊符號的學術論文，它都能較好地還原原始結構。這對於需要進行文檔數位化（Digitization）的企業來說，是一個巨大的福音。

影片字幕與開放領域提取

除了靜態圖片，HunyuanOCR 也被優化用於提取影片字幕。這在短影音盛行的當下非常實用。想像一下，無需人工聽寫，直接從畫面中精準抓取字幕，這能節省多少後製時間？此外，它在開放領域（Open-field）的資訊提取能力，讓它能應用於自動駕駛的路牌辨識或機器人的視覺導航中。

開發者資源與開源精神

騰訊這次將 HunyuanOCR 開源，無疑是對開發者社群的一大貢獻。

HuggingFace 模型庫：提供了完整的模型權重下載。
GitHub 代碼庫：包含了詳細的使用說明和微調（Fine-tuning）指南。

這意味著，如果你是一個 AI 工程師，你可以直接將這個模型整合到你的應用程式中，打造屬於自己的文件掃描器或翻譯工具，而無需從頭訓練模型。

相關連結：
HuggingFace 下載頁面
GitHub 專案地址

常見問題解答 (FAQ)

為了幫助大家更快速了解 HunyuanOCR，我整理了一些基於開發者社群最關心的問題。

1. HunyuanOCR 的硬體需求高嗎？

由於模型參數僅為 1B（10 億），它的硬體需求相對較低。相比於需要高階 GPU 才能跑得動的 70B 大模型，HunyuanOCR 可以在消費級顯卡甚至經過優化的邊緣設備上運行，這大幅降低了部署門檻。

2. 它支援哪些語言？

HunyuanOCR 專注於多語言文檔解析，對於主流語言（如中文、英文）的支援度極佳。從基準測試來看，它在處理跨語言翻譯任務（如 DoTA 測試集）時表現優異，顯示其具備強大的多語言理解能力。

3. 這個模型適合用來做什麼？

它非常適合以下場景：

複雜文檔數位化：還原 PDF 或掃描檔的表格和排版。
自然場景文字識別：讀取街景圖中的招牌或車牌。
影片內容分析：自動提取影片內的硬字幕。
即時翻譯工具：拍照翻譯應用。

4. 與 GPT-4o 相比，HunyuanOCR 的優勢在哪？

雖然 GPT-4o 是一個全能型選手，但在純粹的 OCR 準確度（特別是像素級的文字定位和識別）上，HunyuanOCR 展現了更高的專業度。OmniDocBench 的數據顯示，HunyuanOCR 在文檔解析得分上大幅領先 GPT-4o，且運行成本更低、速度可能更快。

5. 我可以商用這個模型嗎？

具體的授權條款請參考其 GitHub 頁面上的 License 文件。通常騰訊混元系列的開源項目會遵循特定的開源協議，使用前建議仔細閱讀以免觸法。

結語：小而美的 AI 發展路徑

HunyuanOCR 的出現提醒了我們一件事：在追求通用人工智慧（AGI）的道路上，專用模型依然有其不可替代的價值。

對於需要精準、高效處理圖像文字的用戶來說，HunyuanOCR 提供了一個比調用昂貴 LLM API 更具性價比的選擇。它證明了通過精巧的架構設計和高品質的數據訓練，10 億參數也能撬動世界級的效能。

下次當你需要從一張模糊的照片中提取表格數據時，或許可以試試這個來自騰訊的「小巨人」，它可能會給你意想不到的驚喜。

分享至:

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

Recommended for You

0 …

tool

0.9B 參數挑戰 SOTA！智譜 GLM-OCR 開源：讓文檔解析快 10 倍

智譜 AI 開源 GLM-OCR 模型，僅 0.9B 參數卻在複雜表格與公式識別上達到 SOTA 水平。性能直逼 GPT-5.2 與 Gemini-3-Pro，推理成本僅為傳統 OCR 的十分之一。立即了解如何部署這款輕量級文檔解析神器，實現 Markdown 與 JSON 結構化直出！說實話，過去幾年的 AI 發展似乎讓人產生了一種迷思：只要模型參數量夠大，就能解決所有問題。各家科技巨頭爭相推出數百億、甚至千億參數的多模態大模型。然而，當開發者與企業真正要將這些巨無霸落地應用時，高昂的算力成本和令人崩潰的延遲往往成了最大的攔路虎。難道沒有更輕便、更聰明的解法嗎？智譜 AI 最新推出的 GLM-OCR 正好打破了這個僵局。這款輕量級專業 OCR 模型，參數規模僅有 0.9B。仔細想想看，不到 1B 的體積，聽起來似乎微不足道。但根據權威榜單 OmniDocBench V1.5 的最新數據，這款「小尺寸」模型卻以 94.62 分登頂，甚至在許多核心場景中超越了閉源大模型 GPT-5.2 與 Gemini-3-Pro。這不單純是一次技術更新，而是一次效率的全面重塑。以小博大：極致性價比與速度要衡量一款工具的實用性，速度絕對是硬指標。在相同的硬體環境與單副本測試條件下，GLM-OCR 展現了驚人的吞吐量。處理 PDF 文檔時，它能達到每秒 1.86 頁的速度，處理單張圖片也能達到每秒 0.67 張。這樣的表現顯著優於同類模型。更重要的是部署的靈活性。由於參數量僅 0.9B，它完美支持 vLLM 和 SGLang 等主流框架部署。這意味著企業可以在本地伺服器，甚至算力有限的邊緣設備上運行這套系統。根據智譜官方的技術文檔顯示，這種輕量化設計讓推理延遲與算力開銷大幅降低，整體的運行成本大約只有傳統 OCR 方案的十分之一。專攻「難啃」的文檔，連手寫公式也不放過傳統 OCR 工具面對工整的印刷體時表現尚可，但一旦遇到真實業務場景中混亂的版式，往往就束手無策了。不管是傾斜的掃描件、蓋滿印章的發票，還是手寫的數學公式，向來都是文檔解析的重災區。 GLM-OCR 針對這些複雜場景進行了專門的優化。在包含代碼文檔、複雜表格、印章等元素的測試中，它的識別準確度依然出色。以最讓人頭痛的數學公式識別為例，在 UniMERNet 基準測試中，GLM-OCR 拿下了 96.5 的高分，甚至超越了 GPT-5.2 的 90.5 分。

Feb 3, 2026 Read →

D …

tool

DeepSeek-OCR 2 重磅登場：機器終於學會像人類一樣「跳著讀」的視覺邏輯

DeepSeek 團隊最近又在開源社群丟下了一顆震撼彈。這次他們帶來的 DeepSeek-OCR 2，不僅僅是把 OCR（光學字元辨識）的準確率刷高了幾個百分點那麼簡單。這款模型觸及了一個長期以來被忽視、卻又至關重要的核心問題：機器看圖的方式，其實一直都是錯的。如果你仔細觀察過現有的視覺模型，會發現它們都有一個「壞習慣」。無論圖片內容是什麼，它們總是死板地從左上角掃描到右下角（Raster-scan）。但這真的是閱讀的正確方式嗎？想想看你在讀報紙、看複雜圖表或者是瀏覽網頁的時候，視線是怎麼移動的？你的眼睛會根據標題、欄位、圖片的邏輯關係「跳躍」移動，這才是人類的閱讀直覺。 DeepSeek-OCR 2 的核心突破，就在於它試圖教會機器這種**「視覺因果流（Visual Causal Flow）」**。為何傳統的「掃描式」閱讀已經過時？這是一個很有趣的現象。目前的視覺語言模型（VLMs）大多把 2D 圖像強行壓扁成 1D 的序列，而且順序是固定的。這種做法在處理簡單圖片時沒問題，但一遇到複雜的文檔佈局，比如多欄排版的學術論文、巢狀表格或者是圖文穿插的雜誌，模型就會「暈頭轉向」。因為空間上的相鄰，並不代表語意上的相連。 DeepSeek 的研究人員發現，要解決這個問題，不能只靠堆疊參數量。他們提出了一個全新的概念：讓編碼器（Encoder）具備推理能力。這就是 DeepSeek-OCR 2 的秘密武器 —— DeepEncoder V2。它不再是那個只會被動接收像素的攝像頭，而更像是一個懂得先「整理思緒」再進行閱讀的大腦前額葉。 DeepEncoder V2：用語言模型的腦袋來看世界這部分的技術細節非常值得玩味。通常，視覺模型的編碼器會使用像 CLIP 這樣的架構。但 DeepSeek 這次做了一個大膽的嘗試：他們把編碼器換成了一個語言模型（LLM）。具體來說，他們使用了 Qwen2-0.5B 作為視覺編碼器的底座。你沒看錯，用一個語言模型來處理視覺訊號。這裡的邏輯在於，語言模型天生就擅長處理序列和因果關係。這個「混血」架構是如何運作的？視覺標記化（Vision Tokenizer）：首先，圖像會經過一個輕量級的 Tokenizer（基於 SAM-base），這一步主要是為了壓縮資訊，把龐大的像素數據變成模型能消化的小塊。視覺因果流（Visual Causal Flow）：這是最精彩的部分。模型引入了一組**「可學習的查詢（Learnable Queries）」。這些查詢 Token 不會死板地按位置排列，而是採用了因果注意力機制**。這意味著，每一個查詢 Token 在讀取資訊時，都會參考之前的上下文，主動地去圖像中「抓取」下一個邏輯上應該出現的內容。簡單來說，這個過程就像是模型在說：「好的，我讀完了標題，根據邏輯，接下來我應該去找第一段的文字，而不是旁邊那張無關的廣告圖。」效能與成本的極致平衡：劍指 Gemini 在 AI 領域，效能強大通常意味著算力昂貴。但 DeepSeek-OCR 2 在這方面展現了極佳的控制力。透過這種新的架構，DeepSeek-OCR 2 能夠在保持極高壓縮率的同時，提升理解能力。論文中提到一個非常具體的數據：輸入給 LLM 的視覺 Token 數量被控制在 256 到 1120 個之間。

Jan 28, 2026 Read →

A …

tool

AI 如何提升日文漫畫文字辨識？一個新 OCR 模型的應用

對於許多漫畫讀者和開發者來說，準確辨識漫畫中的文字一直是一項挑戰。最近，一個專為日本漫畫微調的 AI 文字辨識（OCR）模型，將辨識準確率從 27% 提升至 70%，為漫畫翻譯和相關應用提供了新的可能性。對於喜歡直接閱讀原文漫畫的讀者來說，語言隔閡往往是第一個挑戰。而對於想透過工具輔助閱讀或進行翻譯的人來說，如何讓電腦準確「讀懂」漫畫中的文字，則是一個重要的技術問題。這背後的核心技術，稱為光學字元辨識（Optical Character Recognition, OCR）。雖然現今的 OCR 技術在處理標準文件時已相當成熟，但一旦應用場景換成漫畫，就會面臨許多困難。為什麼辨識漫畫文字這麼困難？漫畫的文字呈現方式與一般文件有很大的不同，這為 OCR 技術帶來了幾個主要的挑戰：多變的字體風格：漫畫家常會使用各種藝術字體來傳達角色的情緒或聲音的張力，這些非標準化的字體對電腦來說難以辨識。不規則的排版：對話框內的文字可以是直書、橫書，甚至傾斜排列，增加了定位和辨識的複雜度。複雜的背景干擾：文字經常疊加在豐富的畫面或效果線上，不像白紙黑字那樣清晰分明。特殊的漫畫符號：大量的擬聲詞和效果字是漫畫獨有的表達方式，通用型的 OCR 模型通常沒有針對這些內容進行訓練。因為這些因素，大多數通用的 OCR 工具在處理漫畫時，辨識結果的準確率並不理想。專為漫畫設計的 PaddleOCR-VL-For-Manga 模型為了解決這個問題，有開發者針對日本漫畫的特性，推出了一個名為「PaddleOCR-VL-For-Manga」的特製 AI 模型。這個專案的基礎是百度 PaddlePaddle 團隊所開發的視覺語言模型 PaddleOCR-VL。為了讓它能更好地適應漫畫場景，開發者進行了所謂的「微調」（Fine-tuning），也就是用特定領域的資料對模型進行額外訓練。訓練資料主要來自 Manga109-s 資料集，並輔以 150 萬個額外生成的合成樣本。透過這些專門的漫畫資料，模型得以學習如何辨識漫畫中各種特殊的文字風格和版面配置。關於 Manga109-s 資料集 Manga109 是一個由學術機構彙編、包含 109 部日本漫畫的研究用資料集。其中的 Manga109-s 子集特別授權可用於商業開發，為相關應用的研究提供了寶貴的資源。辨識成果：準確率從 27% 提升至 70% 經過這次專門的微調，模型的表現有了顯著的提升。根據開發者公布的資訊，原版模型在漫畫上的完整句子辨識準確率約為 27%，而經過微調的「PaddleOCR-VL-For-Manga」模型，準確率則提高到了 70%。這項進展意味著，模型能更完整地辨識出對話框中的句子，而不僅僅是零碎的單詞。新模型在處理漫畫對話泡泡和風格化字體方面表現不錯。不過，開發者也指出，模型在區分「全形」與「半形」字元時仍有改善空間。儘管如此，這依然是漫畫 OCR 技術領域一個值得關注的發展。如何使用這個模型？這個模型是開源的，對這項技術感興趣的開發者可以在 Hugging Face 平台上找到它。使用者可以透過 Transformers、PaddleOCR 或其他支援 PaddleOCR-VL 的程式庫來調用這個模型。開發者建議，若要處理有固定版面的文件，可以嘗試將其與 PP-DocLayoutV2 佈局分析工具結合使用，但同時也提醒，漫畫的版面配置與標準文件存在差異。

Nov 7, 2025 Read →