tool

DeepSeek-OCR 2 重磅登場:機器終於學會像人類一樣「跳著讀」的視覺邏輯

January 28, 2026
Updated Jan 28
1 min read

DeepSeek 團隊最近又在開源社群丟下了一顆震撼彈。這次他們帶來的 DeepSeek-OCR 2,不僅僅是把 OCR(光學字元辨識)的準確率刷高了幾個百分點那麼簡單。這款模型觸及了一個長期以來被忽視、卻又至關重要的核心問題:機器看圖的方式,其實一直都是錯的。

如果你仔細觀察過現有的視覺模型,會發現它們都有一個「壞習慣」。無論圖片內容是什麼,它們總是死板地從左上角掃描到右下角(Raster-scan)。但這真的是閱讀的正確方式嗎?想想看你在讀報紙、看複雜圖表或者是瀏覽網頁的時候,視線是怎麼移動的?你的眼睛會根據標題、欄位、圖片的邏輯關係「跳躍」移動,這才是人類的閱讀直覺。

DeepSeek-OCR 2 的核心突破,就在於它試圖教會機器這種**「視覺因果流(Visual Causal Flow)」**。

為何傳統的「掃描式」閱讀已經過時?

這是一個很有趣的現象。目前的視覺語言模型(VLMs)大多把 2D 圖像強行壓扁成 1D 的序列,而且順序是固定的。這種做法在處理簡單圖片時沒問題,但一遇到複雜的文檔佈局,比如多欄排版的學術論文、巢狀表格或者是圖文穿插的雜誌,模型就會「暈頭轉向」。

因為空間上的相鄰,並不代表語意上的相連。

DeepSeek 的研究人員發現,要解決這個問題,不能只靠堆疊參數量。他們提出了一個全新的概念:讓編碼器(Encoder)具備推理能力。這就是 DeepSeek-OCR 2 的秘密武器 —— DeepEncoder V2。它不再是那個只會被動接收像素的攝像頭,而更像是一個懂得先「整理思緒」再進行閱讀的大腦前額葉。

DeepEncoder V2:用語言模型的腦袋來看世界

這部分的技術細節非常值得玩味。通常,視覺模型的編碼器會使用像 CLIP 這樣的架構。但 DeepSeek 這次做了一個大膽的嘗試:他們把編碼器換成了一個語言模型(LLM)。

具體來說,他們使用了 Qwen2-0.5B 作為視覺編碼器的底座。你沒看錯,用一個語言模型來處理視覺訊號。這裡的邏輯在於,語言模型天生就擅長處理序列和因果關係。

這個「混血」架構是如何運作的?

  1. 視覺標記化(Vision Tokenizer): 首先,圖像會經過一個輕量級的 Tokenizer(基於 SAM-base),這一步主要是為了壓縮資訊,把龐大的像素數據變成模型能消化的小塊。
  2. 視覺因果流(Visual Causal Flow): 這是最精彩的部分。模型引入了一組**「可學習的查詢(Learnable Queries)」。這些查詢 Token 不會死板地按位置排列,而是採用了因果注意力機制**。這意味著,每一個查詢 Token 在讀取資訊時,都會參考之前的上下文,主動地去圖像中「抓取」下一個邏輯上應該出現的內容。

簡單來說,這個過程就像是模型在說:「好的,我讀完了標題,根據邏輯,接下來我應該去找第一段的文字,而不是旁邊那張無關的廣告圖。」

效能與成本的極致平衡:劍指 Gemini

在 AI 領域,效能強大通常意味著算力昂貴。但 DeepSeek-OCR 2 在這方面展現了極佳的控制力。

透過這種新的架構,DeepSeek-OCR 2 能夠在保持極高壓縮率的同時,提升理解能力。論文中提到一個非常具體的數據:輸入給 LLM 的視覺 Token 數量被控制在 256 到 1120 個之間。

為什麼是 1120?這並不是隨機選的數字。這正是 Google 的 Gemini-3 Pro 模型的最大視覺 Token 預算。DeepSeek 顯然是有備而來,他們希望在相同的資源限制下,證明開源架構也能達到、甚至超越頂級閉源模型的效率。

OmniDocBench v1.5 這個專門測試文檔解析能力的基準測試中,DeepSeek-OCR 2 拿下了 91.09% 的高分,相比前一代提升了 3.73%。更重要的是,在「閱讀順序」這項指標上,錯誤率大幅下降。這直接證明了「視覺因果流」不僅僅是理論上的創新,在實際應用中也確實讓模型「讀」得更順了。

實際應用:從實驗室到生產環境

很多論文發布後就束之高閣,但 DeepSeek-OCR 2 已經是經過戰火洗禮的產品。

DeepSeek 團隊透露,這個模型已經被應用在他們的內部生產流程中,包括處理海量的 PDF 訓練數據,以及線上的 OCR 服務。這對於開發者來說是個好消息,因為這意味著模型的穩定性和實用性已經經過了大規模數據的驗證,而不是只能在幾個精心挑選的 Demo 案例上跑分。

如果你想親自體驗這個模型,DeepSeek 已經非常大方地將代碼和權重全部開源。你可以在 GitHub 上找到完整的專案,或者直接在 Hugging Face 下載模型權重。

未來展望:通往真正的 2D 推理

DeepSeek-OCR 2 的出現,其實暗示了一個更大的趨勢。

過去我們把視覺和語言分得很開,視覺負責看,語言負責想。但 DeepEncoder V2 的成功表明,語言模型的架構完全可以用來處理視覺任務。這為未來的「全模態(Omni-modal)」模型鋪平了道路。也許在不久的將來,我們不再需要為圖像、語音、文字分別設計不同的編碼器,一個統一的、基於 Transformer 的架構就能理解所有感官資訊。

這場關於「機器如何閱讀」的革命才剛剛開始,而 DeepSeek 顯然已經站在了浪潮的最前端。


常見問題解答 (FAQ)

為了幫助大家更快速上手,這裡整理了幾個關於 DeepSeek-OCR 2 的關鍵問答:

Q1:DeepSeek-OCR 2 與第一代的主要區別是什麼?

A: 最大的區別在於編碼器(Encoder)。第一代使用的是傳統的視覺編碼器,而第二代引入了 DeepEncoder V2,這是一個基於 LLM 架構的視覺編碼器。這讓模型具備了「視覺因果流」的能力,能夠根據語意邏輯重新排列視覺資訊,而不僅僅是按空間座標掃描,特別是在處理複雜排版文檔時,閱讀順序的準確性有顯著提升。

Q2:我需要很強大的硬體才能運行 DeepSeek-OCR 2 嗎?

A: 相對來說,它的硬體需求是親民的。雖然它引入了更複雜的邏輯,但其視覺 Tokenizer 經過高度壓縮(僅 80M 參數),且解碼器部分採用了 MoE(混合專家)架構,實際運算時的活躍參數僅約 500M。這意味著它的推理速度非常快,且對記憶體的佔用也在合理範圍內,非常適合需要高吞吐量的應用場景。

Q3:這個模型支援中文辨識嗎?

A: 是的,DeepSeek-OCR 2 訓練數據中包含了大量的多語言文檔,對於中文、英文以及包含公式、表格的複雜文檔都有很好的支援能力。在 OmniDocBench 的測試中,它展現了優異的多語言處理能力。

Q4:如何使用這個模型將圖片轉換為 Markdown?

A: 使用方法非常直觀。根據官方的指引,你可以使用類似這樣的 Prompt:prompt = "<image>\n<|grounding|>Convert the document to markdown."。模型會輸出包含結構化資訊的 Markdown 文本,甚至能精準還原表格和公式的格式。詳細的程式碼範例可以直接參考官方的 GitHub 頁面。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.