tool

開源文件處理新標準!NuExtract3 視覺語言模型實測與部署解析

May 26, 2026
Updated May 26
1 min read

開源文件處理新標準:解析 NuExtract3 的雙效合一與推論技術

處理繁雜的文件,往往是日常開發與企業應用中最讓人頭痛的環節。滿是皺褶的收據照片、排版奇特的 PDF 檔案,或是跨頁的複雜表單,要把裡面的關鍵資訊精確抓取出來,從來都不是件輕鬆的事。大家一定都有過這種與資料苦苦奮戰的經驗。不過,現在有了一個極具吸引力的新選擇。

根據官方的 NuExtract3 發布消息 指出,NuMind 團隊帶來了一款基於 Qwen3.5-4B 架構的 40 億參數視覺語言模型(VLM)。它採用完全開源的 Apache-2.0 授權,並把企業界最需要的兩大核心功能完美揉合在一起。若開發團隊之前體驗過 NuMarkdown 的優異表現,那麼這次的全面升級版絕對會讓人眼睛一亮。

將結構化數據與 OCR 完美綁定

要打造一個順暢的資料處理流程,往往需要拼湊多種工具。傳統的現代文件處理通常被硬生生拆分成兩個世界。

一邊是負責把文件轉成 JSON 格式的結構化數據提取工具。這項技術對銀行、保險公司來說特別重要,因為將姓名、金額這些欄位自動輸入系統,能省下極大的人力與時間成本。另一邊則是負責處理內容提取的 OCR 技術。它的任務是把整份文件的內容與排版,原封不動地轉換成 Markdown 格式。這可是讓企業內部文件順利餵給 AI 助手,或是建立 RAG 系統的重要基石。

這兩項工作本質上都在做「理解文件」這件事。那為什麼要分成兩個模型來跑呢?這正是 NuExtract3 想要解決的核心痛點。開發團隊成功將結構化提取與 OCR 內容提取整合進單一模型中。這項創新設計大幅簡化了企業的部署流程。工程師只需維護一套系統,就能同時滿足這兩種截然不同的業務需求。

聰明又精打細算的推論本領

遇到充滿手繪表格或跨頁重疊儲存格的掃描檔,就算是目前市面上參數極大的通用模型,也常常會看得一頭霧水。為了解決這類複雜排版的陷阱,NuExtract3 導入了極具實用價值的「大聲思考」推論能力。

在給出最終答案前,模型會先仔細觀察。它會從文件的整體架構開始分析,一步一步推敲到具體的欄位名稱,藉此預判並避開可能的排版錯誤。你知道嗎?這種類似人類解題的邏輯,正是它能夠精確抓取資料的秘密武器。

但這裡有個無可避免的現實考量。思考是需要付出代價的。一般模型一旦開啟這類推論功能,往往會產生大量的思考 token。有時候,這些思考 token 的數量甚至會是最終輸出結果的十倍以上,導致運算成本與等待時間瞬間飆升。

為了兼顧預算與效能,NuExtract3 在訓練階段就特別透過強化學習針對這點進行了最佳化。它能將思考 token 的生成數量控制在與輸出 token 差不多的水準。平均下來大約只需要三百多個 token 就能完成推論。這在提取品質、運算成本與處理延遲之間,找到了一個非常完美的平衡點。更棒的是,開發者可以根據當下的任務需求,隨時自由開啟或關閉這項推論功能。

讓工程師不再頭痛的自訂指令與欄位控制

把資料抓出來只是第一步。後面無盡的資料清理,往往才是真正折磨人的地方。為了大幅減少繁瑣的後置處理手續,這次的升級特別強化了對資料類型的精準掌控。

相較於上一代僅有少數幾種基礎設定,最新版本一口氣將支援的結構化提取欄位類型擴增到 20 種。不管是 ISO 8601 格式的日期與時間、國家代碼、多國貨幣,還是電子郵件、電話號碼,甚至連歐洲常用的 IBAN 與 BIC 格式,都能直接要求模型精準輸出。這點對於需要處理跨國合約或財務報表的開發者來說,絕對是一大福音。

過去為了引導模型抓對資料,工程師常常得絞盡腦汁進行「範本工程」。有時候甚至得把欄位名稱寫得超級長,例如標註「右下角的卡片存取碼」,只為了讓模型看懂。現在完全不需要這麼辛苦了。

新系統正式導入了自由形式指令(Freeform instructions)的支援。使用者可以直接在範本中加入一段白話文的指示。例如告訴模型:「存取碼是由 6 個數字組成,通常會出現在這張卡片的右下角」。模型看完指示後,就能準確無誤地完成任務。這種貼近人類日常對話的溝通方式,不僅直覺,也大幅提升了資訊抓取的精確度。

設備門檻超親民,輕鬆搞定本地部署

聽到擁有 40 億參數,加上卓越的推論能力,很多人可能會先倒吸一口氣,擔心手邊的硬體設備根本跑不動。大家其實多慮了。

雖然開發團隊當初動用了 8 張 H100 頂級顯示卡,耗費了整整 3 天的時間來訓練這款模型,為的就是讓它具備極強的長篇內容理解力。但對於想要親自動手測試的終端使用者來說,硬體門檻可是出乎意料的低。

實際上,這款模型只要配備大約 4GB 顯示記憶體(VRAM)的設備就能順暢運行。這代表絕大多數的主流電腦,甚至是筆記型電腦,都有機會輕鬆實現本地託管。若想立刻見證它的能耐,無需經歷繁瑣的安裝步驟,讀者可以直接前往免費的 Hugging Face 體驗空間 試玩,連註冊帳號都免了。

對於有進階整合需求的企業,官方也貼心地提供了各種權重量化格式。除了常見的 Safetensors 與 GGUF,還有專為蘋果晶片打造的 MLX 格式。另外也涵蓋了 GPTQ、W8A8、FP8、Q4、Q6 等多樣化選項,讓系統管理員可以根據現有環境自由挑選。如果想了解更詳細的架構資訊,強烈建議到 Hugging Face 模型頁面相關模型集合 挖寶。

最後分享一個來自官方的實務操作小訣竅。當使用者操作主流推論引擎(像是 vLLM、SGLang 或 llama.cpp)來進行 Markdown OCR 內容提取時,建議採用逐頁處理(page by page)的方式。把整份文件拆開一頁一頁餵給模型,不僅能充分發揮平行運算的優勢,處理速度與最終提取出來的結果也會更加漂亮。

文件資訊的自動化處理,一直是一場與混亂排版搏鬥的持久戰。現在有了這樣一款體積小巧、思維清晰,又把結構化數據與 OCR 完美融合的開源利器,解決複雜的資訊提取難題似乎變得輕鬆許多。

常見問與答 (FAQ)

Q1:NuExtract3 與傳統的文件處理或 OCR 工具有何不同? A: 傳統的文件處理通常被拆分為結構化數據提取(輸出 JSON)與內容提取(輸出 Markdown 的 OCR)兩個獨立的系統。NuExtract3 的最大突破在於,它將這兩種任務完美統一在單一的 40 億參數模型中,讓企業只需維護一套系統即可滿足不同的業務需求,大幅簡化了部署流程。

Q2:面對排版複雜(如複雜表格或跨頁)的文件,NuExtract3 的表現如何? A: 表現非常優異,因為它導入了「大聲思考」(thinking out loud)的推論能力。在給出結果前,模型會先從整體架構到具體細節進行推理,以預判潛在的排版陷阱。更重要的是,團隊透過強化學習,將模型平均生成的思考 token 數量控制在僅約 338 個,成功在提取品質、運算成本與處理延遲之間取得了極佳的平衡。

Q3:所謂的「自由形式指令」(Freeform instructions)能帶來什麼好處? A: 過去為了引導模型,開發者常需要把提示硬塞在欄位名稱裡(例如命名為「右下角的卡片存取碼」)。有了自由形式指令,您可以直接在範本中加入白話文指示,例如告訴模型:「存取碼為 6 位數,通常位於卡片右下角」。這種方式更直覺,且能大幅提升資訊抓取的精確度。

Q4:在本地端部署 NuExtract3 會很吃硬體資源嗎? A: 完全不會。雖然開發團隊動用了 8 張 H100 顯示卡耗時 3 天來訓練這款模型,以盡可能讓它學習大量的上下文,但模型對終端推論的硬體要求極其親民。只要配備約 4GB 的顯示記憶體(VRAM)就能順暢運行。官方提供了 Safetensors、GGUF 以及蘋果晶片適用的 MLX 等多種權重量化格式(如 GPTQ、W8A8、FP8 等),讓您可以輕鬆在絕大多數設備上進行託管。

Q5:處理包含多頁的長篇文件時,有什麼實務上的建議嗎? A: 官方建議在進行 Markdown 內容提取時,採用「逐頁處理」(page by page)的方式。將長文件拆開逐頁餵給模型,不僅能獲得最佳的提取結果,還能更好地利用平行運算的優勢來提升整體的推論速度。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.