開源文件處理新標準！NuExtract3 視覺語言模型實測與部署解析

開源文件處理新標準：解析 NuExtract3 的雙效合一與推論技術

處理繁雜的文件，往往是日常開發與企業應用中最讓人頭痛的環節。滿是皺褶的收據照片、排版奇特的 PDF 檔案，或是跨頁的複雜表單，要把裡面的關鍵資訊精確抓取出來，從來都不是件輕鬆的事。大家一定都有過這種與資料苦苦奮戰的經驗。不過，現在有了一個極具吸引力的新選擇。

根據官方的 NuExtract3 發布消息指出，NuMind 團隊帶來了一款基於 Qwen3.5-4B 架構的 40 億參數視覺語言模型（VLM）。它採用完全開源的 Apache-2.0 授權，並把企業界最需要的兩大核心功能完美揉合在一起。若開發團隊之前體驗過 NuMarkdown 的優異表現，那麼這次的全面升級版絕對會讓人眼睛一亮。

將結構化數據與 OCR 完美綁定

要打造一個順暢的資料處理流程，往往需要拼湊多種工具。傳統的現代文件處理通常被硬生生拆分成兩個世界。

一邊是負責把文件轉成 JSON 格式的結構化數據提取工具。這項技術對銀行、保險公司來說特別重要，因為將姓名、金額這些欄位自動輸入系統，能省下極大的人力與時間成本。另一邊則是負責處理內容提取的 OCR 技術。它的任務是把整份文件的內容與排版，原封不動地轉換成 Markdown 格式。這可是讓企業內部文件順利餵給 AI 助手，或是建立 RAG 系統的重要基石。

這兩項工作本質上都在做「理解文件」這件事。那為什麼要分成兩個模型來跑呢？這正是 NuExtract3 想要解決的核心痛點。開發團隊成功將結構化提取與 OCR 內容提取整合進單一模型中。這項創新設計大幅簡化了企業的部署流程。工程師只需維護一套系統，就能同時滿足這兩種截然不同的業務需求。

聰明又精打細算的推論本領

遇到充滿手繪表格或跨頁重疊儲存格的掃描檔，就算是目前市面上參數極大的通用模型，也常常會看得一頭霧水。為了解決這類複雜排版的陷阱，NuExtract3 導入了極具實用價值的「大聲思考」推論能力。

在給出最終答案前，模型會先仔細觀察。它會從文件的整體架構開始分析，一步一步推敲到具體的欄位名稱，藉此預判並避開可能的排版錯誤。你知道嗎？這種類似人類解題的邏輯，正是它能夠精確抓取資料的秘密武器。

但這裡有個無可避免的現實考量。思考是需要付出代價的。一般模型一旦開啟這類推論功能，往往會產生大量的思考 token。有時候，這些思考 token 的數量甚至會是最終輸出結果的十倍以上，導致運算成本與等待時間瞬間飆升。

為了兼顧預算與效能，NuExtract3 在訓練階段就特別透過強化學習針對這點進行了最佳化。它能將思考 token 的生成數量控制在與輸出 token 差不多的水準。平均下來大約只需要三百多個 token 就能完成推論。這在提取品質、運算成本與處理延遲之間，找到了一個非常完美的平衡點。更棒的是，開發者可以根據當下的任務需求，隨時自由開啟或關閉這項推論功能。

讓工程師不再頭痛的自訂指令與欄位控制

把資料抓出來只是第一步。後面無盡的資料清理，往往才是真正折磨人的地方。為了大幅減少繁瑣的後置處理手續，這次的升級特別強化了對資料類型的精準掌控。

相較於上一代僅有少數幾種基礎設定，最新版本一口氣將支援的結構化提取欄位類型擴增到 20 種。不管是 ISO 8601 格式的日期與時間、國家代碼、多國貨幣，還是電子郵件、電話號碼，甚至連歐洲常用的 IBAN 與 BIC 格式，都能直接要求模型精準輸出。這點對於需要處理跨國合約或財務報表的開發者來說，絕對是一大福音。

過去為了引導模型抓對資料，工程師常常得絞盡腦汁進行「範本工程」。有時候甚至得把欄位名稱寫得超級長，例如標註「右下角的卡片存取碼」，只為了讓模型看懂。現在完全不需要這麼辛苦了。

新系統正式導入了自由形式指令（Freeform instructions）的支援。使用者可以直接在範本中加入一段白話文的指示。例如告訴模型：「存取碼是由 6 個數字組成，通常會出現在這張卡片的右下角」。模型看完指示後，就能準確無誤地完成任務。這種貼近人類日常對話的溝通方式，不僅直覺，也大幅提升了資訊抓取的精確度。

設備門檻超親民，輕鬆搞定本地部署

聽到擁有 40 億參數，加上卓越的推論能力，很多人可能會先倒吸一口氣，擔心手邊的硬體設備根本跑不動。大家其實多慮了。

雖然開發團隊當初動用了 8 張 H100 頂級顯示卡，耗費了整整 3 天的時間來訓練這款模型，為的就是讓它具備極強的長篇內容理解力。但對於想要親自動手測試的終端使用者來說，硬體門檻可是出乎意料的低。

實際上，這款模型只要配備大約 4GB 顯示記憶體（VRAM）的設備就能順暢運行。這代表絕大多數的主流電腦，甚至是筆記型電腦，都有機會輕鬆實現本地託管。若想立刻見證它的能耐，無需經歷繁瑣的安裝步驟，讀者可以直接前往免費的 Hugging Face 體驗空間試玩，連註冊帳號都免了。

對於有進階整合需求的企業，官方也貼心地提供了各種權重量化格式。除了常見的 Safetensors 與 GGUF，還有專為蘋果晶片打造的 MLX 格式。另外也涵蓋了 GPTQ、W8A8、FP8、Q4、Q6 等多樣化選項，讓系統管理員可以根據現有環境自由挑選。如果想了解更詳細的架構資訊，強烈建議到 Hugging Face 模型頁面或相關模型集合挖寶。

最後分享一個來自官方的實務操作小訣竅。當使用者操作主流推論引擎（像是 vLLM、SGLang 或 llama.cpp）來進行 Markdown OCR 內容提取時，建議採用逐頁處理（page by page）的方式。把整份文件拆開一頁一頁餵給模型，不僅能充分發揮平行運算的優勢，處理速度與最終提取出來的結果也會更加漂亮。

文件資訊的自動化處理，一直是一場與混亂排版搏鬥的持久戰。現在有了這樣一款體積小巧、思維清晰，又把結構化數據與 OCR 完美融合的開源利器，解決複雜的資訊提取難題似乎變得輕鬆許多。

常見問與答 (FAQ)

Q1：NuExtract3 與傳統的文件處理或 OCR 工具有何不同？ A：傳統的文件處理通常被拆分為結構化數據提取（輸出 JSON）與內容提取（輸出 Markdown 的 OCR）兩個獨立的系統。NuExtract3 的最大突破在於，它將這兩種任務完美統一在單一的 40 億參數模型中，讓企業只需維護一套系統即可滿足不同的業務需求，大幅簡化了部署流程。

Q2：面對排版複雜（如複雜表格或跨頁）的文件，NuExtract3 的表現如何？ A：表現非常優異，因為它導入了「大聲思考」（thinking out loud）的推論能力。在給出結果前，模型會先從整體架構到具體細節進行推理，以預判潛在的排版陷阱。更重要的是，團隊透過強化學習，將模型平均生成的思考 token 數量控制在僅約 338 個，成功在提取品質、運算成本與處理延遲之間取得了極佳的平衡。

Q3：所謂的「自由形式指令」（Freeform instructions）能帶來什麼好處？ A：過去為了引導模型，開發者常需要把提示硬塞在欄位名稱裡（例如命名為「右下角的卡片存取碼」）。有了自由形式指令，您可以直接在範本中加入白話文指示，例如告訴模型：「存取碼為 6 位數，通常位於卡片右下角」。這種方式更直覺，且能大幅提升資訊抓取的精確度。

Q4：在本地端部署 NuExtract3 會很吃硬體資源嗎？ A：完全不會。雖然開發團隊動用了 8 張 H100 顯示卡耗時 3 天來訓練這款模型，以盡可能讓它學習大量的上下文，但模型對終端推論的硬體要求極其親民。只要配備約 4GB 的顯示記憶體（VRAM）就能順暢運行。官方提供了 Safetensors、GGUF 以及蘋果晶片適用的 MLX 等多種權重量化格式（如 GPTQ、W8A8、FP8 等），讓您可以輕鬆在絕大多數設備上進行託管。

Q5：處理包含多頁的長篇文件時，有什麼實務上的建議嗎？ A：官方建議在進行 Markdown 內容提取時，採用「逐頁處理」（page by page）的方式。將長文件拆開逐頁餵給模型，不僅能獲得最佳的提取結果，還能更好地利用平行運算的優勢來提升整體的推論速度。

分享至:

Featured Partners

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

百 …

tool

百度 Unlimited-OCR 深度解析：恆定 KV 快取、R-SWA 與 32K 長文本 OCR 部署實戰

標題：告別碎片化掃描：解析百度 Unlimited-OCR 的恆定 KV 快取與單次部署實戰處理數十頁的長篇 PDF 總讓伺服器記憶體崩潰嗎？本文全面解析百度於 2026 年釋出的 Unlimited-OCR 開源專案，探討 R-SWA 注意力機制、恆定 KV 快取技術，並提供完整的 SGLang 高併發部署實戰指南，幫助開發團隊輕鬆達成 32K 權杖的單次解析任務。處理長篇幅文件一直是一場技術噩夢。當開發團隊試圖將一份五十頁的財務報表或是結構複雜的技術手冊送入模型時，伺服器的記憶體往往會毫無懸念地被撐爆。這時候工程師通常只能摸摸鼻子，寫一堆腳本把文件切成無數個小碎片。結果呢？表格被硬生生截斷，前後文的邏輯關聯徹底消失，最後還要寫更複雜的程式碼把這些破碎的資訊拼湊回來。老實說，這種妥協讓人非常沮喪。不過，這種無奈的局面出現了轉機。百度在 2026 年 6 月 22 日正式對外公開了 Unlimited-OCR 專案，主打「迎接單次處理長視野解析」。這套開源方案的出現，直接瞄準了過往光學字元辨識技術中最棘手的記憶體限制問題。專案一上線就迅速在 GitHub 累積了超過 550 顆星與 43 次 Fork。今天就來徹底拆解這項技術背後的邏輯，看看它究竟施了什麼魔法，能讓模型一口氣吞下高達 32,000 個權杖。記憶體不再是怪獸：恆定 KV 快取的神奇之處許多剛接觸這個專案的開發者常問，這款模型跟傳統的全流程方案究竟差在哪裡？答案其實就藏在記憶體管理機制裡。傳統模型在生成長序列資訊時，鍵值快取（KV Cache）會隨著輸入長度呈現線性甚至是幾何級數的增長。這就像是一個人在背誦一長串數字，背到後面大腦就當機了。系統為了防止崩潰，只能強制降低併發量，或是限制輸入的長度。 Unlimited-OCR 拿出了「恆定 KV 快取」這個殺手鐧。透過極度優化的快取管理策略，模型在解碼過程中硬是將記憶體的消耗鎖死在一個幾乎恆定的範圍內。這代表什麼？這代表不管今天丟進去的是十頁的合約，還是一百頁的規格書，單次請求佔用的顯示卡記憶體資源都維持在穩定狀態。伺服器不再因為突如其來的長文件而無預警停機，系統穩定性得到了飛躍性的提升。模擬人類閱讀：R-SWA 參考滑動視窗機制要達成超長文本的單次解析，光靠壓縮記憶體是不夠的，模型還必須「看得懂」前後文。這裡就不得不提 R-SWA（參考滑動視窗注意力機制）這項底層技術突破。想像一下人類是怎麼閱讀厚重原文書的。讀到第五十頁的某個專有名詞時，讀者通常會用手指夾住前面的目錄或名詞解釋頁面，一邊看細節一邊參考全域架構。R-SWA 就是在做一模一樣的事情。傳統的滑動視窗機制雖然省了運算資源，卻很容易患上「失憶症」，看完後面就忘了前面。R-SWA 巧妙地替換掉基準模型解碼器中的傳統注意力層，它在滑動視窗處理局部細節的同時，保留了全域的參考權杖。因為這個機制的介入，模型在解析末頁的數據時，依然能緊緊抓牢首頁的脈絡，徹底解決了脈絡斷層的痛點。站在巨人的肩膀上：技術的傳承與融合業界其實已經有不少優秀的視覺解析模型。研發團隊這次並沒有打算閉門造車，而是選擇將前沿模型的寶貴思維揉合在一起。這套架構的基礎多模態理解能力，大量汲取了 Deepseek-OCR 與 Deepseek-OCR-2 的養分，特別是在複雜排版識別的精準度上獲益良多。同時，團隊也借鑒了自家 PaddleOCR 在工業級場景下久經考驗的穩定性。整合這些優勢後，才成功孕育出這個能單次處理 32K 權杖的怪物級應用。實戰演練：從 Huggingface 到 SGLang 的高併發部署聊完了理論，該來點硬核的實作了。好消息是，這套強大的模型採用了極度友善的 MIT 開源授權條款，任何人都能自由下載並應用於商業專案。

Jun 29, 2026 Read →

P …

tool

PP-OCRv6 開源 OCR 登場：34.5M 參數超越千億 AI 模型，文字辨識更精準

開源文書處理利器 PP-OCRv6 報到：僅 34.5M 參數，文字辨識精準度超越千億級視覺大模型如今 AI 模型動輒破百億、千億參數，大家似乎習慣了「體積越大，能力越強」的定律。你知道嗎？PaddleOCR 團隊最新推出的 PP-OCRv6 通用文字辨識方案卻用極度優雅的方式打破了這個迷思。這款模型向世人證明，專業文字辨識領域的極致輕量化，不僅能帶來飛快的運算速度，準確度甚至能把龐大的視覺語言大模型（VLMs）遠遠甩在後頭。大衛戰勝歌利亞：34.5M 參數擊退千億巨獸 PP-OCRv6 最讓人跌破眼鏡的地方，絕對是它驚人的運算性價比。這款模型採用全新設計的 PPLCNetV4 統一骨幹架構。聽起來有點硬核對吧？簡單來說，開發團隊結合了 MetaFormer 的設計理念，把模型體積壓縮到了極致。以中型（Medium）版本為例，參數用量僅僅只有 34.5M。連普通手機都能輕鬆跑起來的輕量級身軀，在文字辨識準確度上竟然一舉超越了參數高達 2350 億的 Qwen3-VL-235B，甚至贏過 GPT-5.5 這種頂級巨獸。這背後的原因非常有趣。大型視覺語言模型常常會自作聰明。遇到模糊或拼錯的字，它們很容易根據過往的語言習慣去猜測，甚至自動修正。業界將這種情況稱為幻覺現象。專業的 OCR 系統就像個一板一眼的老實人。它只會忠實且精準地還原圖片上真正寫出的每一個字母，絕不瞎猜。真正的語言大師：單一模型搞定 50 種語言處理跨國合約或多語系表單時，最頭痛的狀況就是文件中夾雜各國語言。過去遇到這種情況，系統工程師往往需要手動切換不同的語言模型，費時又費力。 PP-OCRv6 的中型與小型模型實現了一項重大突破。它們直接用單一個模型完美覆蓋高達 50 種語言的辨識能力。不管是繁體中文、簡體中文、英文、日文，還是多達 46 種的拉丁語系文字，通通難不倒它。對於需要建構龐大資料處理管線的企業來說，這絕對是提升工作效率的絕佳工具。工業場景的救星：專治各種疑難雜症字體想像一下，拿著手機掃描發票上的點陣字體，或是工廠儀表板上的數位顯示螢幕。螢幕上常常只會跳出一堆亂碼。那種崩潰感相信許多人都經歷過。這些邊緣場景正是傳統通用大模型極度不擅長的領域。研發團隊怎麼解決這個問題？PP-OCRv6 透過擴大感受野（Receptive Fields）的設計，搭配全新的損失函數（DiceBCE Loss），將這些棘手狀況迎刃而解。這套機制能夠精準解析包含輪胎壓印、點陣字、數位螢幕甚至旋轉藝術字體等複雜的工業場景。它踏踏實實地填補了大型視覺語言模型在真實世界中的巨大盲區。針對不同硬體量身打造的三種層級為了滿足不同開發者的硬體條件與部署需求，官方貼心地規劃了三個層級的版本，涵蓋 1.5M 到 34.5M 的參數範圍。微型版 (Tiny)：專為邊緣運算與物聯網 (IoT) 裝置打造。在 NVIDIA A100 上跑一張圖只要 0.13 秒。如果在 Apple M4 晶片上執行，速度比上一代激增 6.1 倍。小型版 (Small)：專注於行動裝置與桌機端。維持高準確率的同時，確保極低的運算延遲。中型版 (Medium)：專為伺服器端設計的火力全開版本。準確度最高，且 GPU 推論速度依然比上一代 PP-OCRv5 提升了 2.37 倍。豐富的開源資源與開發者指南無論是需要為公司導入穩定文件解析系統的工程師，還是單純想在專案中加入強大文字辨識功能的開發者，這套方案都準備了極度友善的開源資源。大家可以直接前往 PaddleOCR 官方 GitHub 儲存庫尋找支援自訂資料集訓練與微調的工具。如果習慣使用社群主流工具，開發團隊也提供了 Hugging Face 的無縫整合支援。只要確保 transformers 套件版本大於等於 5.8.0，就能直接呼叫這款強大的模型進行辨識實作。

Jun 15, 2026 Read →

0 …

tool

0.9B 參數挑戰 SOTA！智譜 GLM-OCR 開源：讓文檔解析快 10 倍

智譜 AI 開源 GLM-OCR 模型，僅 0.9B 參數卻在複雜表格與公式識別上達到 SOTA 水平。性能直逼 GPT-5.2 與 Gemini-3-Pro，推理成本僅為傳統 OCR 的十分之一。立即了解如何部署這款輕量級文檔解析神器，實現 Markdown 與 JSON 結構化直出！說實話，過去幾年的 AI 發展似乎讓人產生了一種迷思：只要模型參數量夠大，就能解決所有問題。各家科技巨頭爭相推出數百億、甚至千億參數的多模態大模型。然而，當開發者與企業真正要將這些巨無霸落地應用時，高昂的算力成本和令人崩潰的延遲往往成了最大的攔路虎。難道沒有更輕便、更聰明的解法嗎？智譜 AI 最新推出的 GLM-OCR 正好打破了這個僵局。這款輕量級專業 OCR 模型，參數規模僅有 0.9B。仔細想想看，不到 1B 的體積，聽起來似乎微不足道。但根據權威榜單 OmniDocBench V1.5 的最新數據，這款「小尺寸」模型卻以 94.62 分登頂，甚至在許多核心場景中超越了閉源大模型 GPT-5.2 與 Gemini-3-Pro。這不單純是一次技術更新，而是一次效率的全面重塑。以小博大：極致性價比與速度要衡量一款工具的實用性，速度絕對是硬指標。在相同的硬體環境與單副本測試條件下，GLM-OCR 展現了驚人的吞吐量。處理 PDF 文檔時，它能達到每秒 1.86 頁的速度，處理單張圖片也能達到每秒 0.67 張。這樣的表現顯著優於同類模型。更重要的是部署的靈活性。由於參數量僅 0.9B，它完美支持 vLLM 和 SGLang 等主流框架部署。這意味著企業可以在本地伺服器，甚至算力有限的邊緣設備上運行這套系統。根據智譜官方的技術文檔顯示，這種輕量化設計讓推理延遲與算力開銷大幅降低，整體的運行成本大約只有傳統 OCR 方案的十分之一。專攻「難啃」的文檔，連手寫公式也不放過傳統 OCR 工具面對工整的印刷體時表現尚可，但一旦遇到真實業務場景中混亂的版式，往往就束手無策了。不管是傾斜的掃描件、蓋滿印章的發票，還是手寫的數學公式，向來都是文檔解析的重災區。 GLM-OCR 針對這些複雜場景進行了專門的優化。在包含代碼文檔、複雜表格、印章等元素的測試中，它的識別準確度依然出色。以最讓人頭痛的數學公式識別為例，在 UniMERNet 基準測試中，GLM-OCR 拿下了 96.5 的高分，甚至超越了 GPT-5.2 的 90.5 分。

Feb 3, 2026 Read →