オープンソース文書処理の新基準！NuExtract3 視覚言語モデルの実測とデプロイ解析

UFのほか、Appleシリコン向け

論エンジン（vLLM、SGLan

tool

オープンソース文書処理の新基準！NuExtract3 視覚言語モデルの実測とデプロイ解析

2026-05-26

オープンソース文書処理の新基準：NuExtract3の「二刀流」と推論技術を解析

煩雑なドキュメントの処理は、日常的な開発や企業アプリケーションにおいて、しばしば最も頭を悩ませる部分です。しわくちゃになった領収書の写真、独特なレイアウトのPDFファイル、あるいはページをまたぐ複雑なフォームなど、そこから重要な情報を正確に抽出するのは決して簡単なことではありません。誰もが一度はデータ抽出に苦労した経験があるでしょう。しかし今、非常に魅力的な新しい選択肢が登場しました。

公式のNuExtract3リリースニュースによると、NuMindチームはQwen3.5-4Bアーキテクチャをベースにした40億パラメータの視覚言語モデル（VLM）をリリースしました。完全にオープンソースのApache-2.0ライセンスを採用し、企業が最も必要とする2つのコア機能を完璧に融合させています。もし開発チームが以前にNuMarkdownの優れたパフォーマンスを体験したことがあるなら、今回の全面的なアップグレード版には間違いなく目を奪われるはずです。

構造化データとOCRの完璧な統合

スムーズなデータ処理フローを構築するには、多くの場合、複数のツールを組み合わせる必要があります。伝統的に、現代のドキュメント処理は2つの世界に明確に分かれていました。

一つは、ドキュメントをJSON形式に変換する「構造化データ抽出」ツールです。この技術は、氏名や金額などのフィールドをシステムに自動入力できるため、銀行や保険会社にとって特に重要であり、多大な人件費と時間を節約できます。もう一つは、コンテンツの抽出を担当する「OCR」技術です。その任務は、ドキュメント全体の内容とレイアウトをそのままMarkdown形式に変換することです。これは、社内文書をAIアシスタントに読み込ませたり、RAG（検索拡張生成）システムを構築したりするための重要な基盤となります。

これら2つのタスクは、本質的にはどちらも「ドキュメントを理解する」ということを行っています。それなら、なぜ2つの独立したモデルとして実行する必要があるのでしょうか？これこそが、NuExtract3が解決しようとしている中心的な課題です。開発チームは、構造化抽出とOCRコンテンツ抽出を単一のモデルに統合することに成功しました。この革新的な設計により、企業のデプロイプロセスは大幅に簡素化されます。エンジニアは一つのシステムを維持するだけで、これら2つの異なるビジネスニーズを同時に満たすことができるのです。

賢く、かつコスト効率の高い推論能力

手書きの表やページをまたいで重なり合うセルを含むスキャン文書に直面すると、現在市場に出回っているパラメータの非常に大きな汎用モデルでさえ、困惑してしまうことがよくあります。このような複雑なレイアウトの罠を解決するために、NuExtract3は非常に実用的な「思考の言語化（thinking out loud）」推論機能を導入しました。

最終的な回答を出す前に、モデルは注意深く観察を行います。ドキュメントの全体構造の分析から始め、具体的なフィールド名へと段階的に推論を進めることで、潜在的なレイアウトミスを予測し、回避します。人間が問題を解くようなこの論理こそが、正確にデータを抽出するための秘策なのです。

しかし、ここには避けられない現実的な考慮事項があります。「思考」にはコストがかかるということです。一般的なモデルがこの種の推論機能を有効にすると、大量の「思考トークン」を生成しがちです。時には、思考トークンの数が最終的な出力結果の10倍以上になることもあり、計算コストと待機時間が急増してしまいます。

予算とパフォーマンスを両立させるため、NuExtract3は学習段階において強化学習を通じてこの点を特別に最適化しました。思考トークンの生成量を、出力トークンと同程度の水準に抑えることができます。平均して約300トークン強で推論を完了できます。これにより、抽出の品質、計算コスト、および処理遅延の間で非常に完璧なバランスを見出しました。さらに素晴らしいことに、開発者はタスクのニーズに応じて、いつでも自由にこの推論機能をオンまたはオフに切り替えることができます。

エンジニアの負担を軽減するカスタム指示とフィールド制御

データを抽出するのは第一歩にすぎません。その後の果てしないデータクリーニングこそが、真に苦労する部分です。煩雑な後処理を大幅に減らすために、今回のアップグレードではデータ型の精密な制御が特に強化されました。

わずか数種類の基礎設定しかなかった前世代と比較して、最新バージョンではサポートする構造化抽出フィールドの型が一気に20種類にまで拡張されました。ISO 8601形式の日付や時間、国コード、多国籍通貨、メールアドレス、電話番号はもちろん、ヨーロッパでよく使われるIBANやBIC形式まで、モデルに正確な出力を要求することができます。これは、多国籍間の契約書や財務諸表を扱う開発者にとって、間違いなく朗報です。

以前は、モデルに正しくデータを抽出させるために、エンジニアは「テンプレートエンジニアリング」に知恵を絞らなければなりませんでした。モデルに理解させるために、「右下のカードアクセスコード」といった非常に長いフィールド名を書かなければならないこともありました。しかし、今やそのような苦労は不要です。

新システムでは「フリーフォーム指示（Freeform instructions）」のサポートが正式に導入されました。ユーザーはテンプレートの中に、日常的な言葉による指示を直接加えることができます。例えば、モデルに「アクセスコードは6桁の数字で、通常はこのカードの右下に表示されます」と伝えるだけで、モデルはその指示を読み取り、正確にタスクを遂行します。このような人間の日常会話に近いコミュニケーション方法は直感的であるだけでなく、情報取得の精度も大幅に向上させます。

ハードウェアのハードルは極めて低く、ローカルデプロイも容易

40億のパラメータと卓越した推論能力を備えていると聞くと、手元のハードウェアでは動かないのではないかと心配する人も多いでしょう。しかし、その心配は無用です。

開発チームは、極めて強力な長文理解力を持たせるために、8枚の最高峰GPU「H100」を投入し、丸3日間かけてこのモデルを学習させましたが、エンドユーザー側のハードウェアのハードルは驚くほど低く抑えられています。

実際、このモデルは約4GBのビデオメモリ（VRAM）を備えたデバイスがあればスムーズに動作します。これは、大多数の一般的なコンピュータ、さらにはノートパソコンでもローカルホスティングを容易に実現できることを意味します。煩雑なインストール手順を省いてすぐにその実力を確かめたい場合は、登録不要で無料のHugging Face体験スペースで試遊することができます。

高度な統合ニーズを持つ企業向けには、公式から多様な重み量子化フォーマットが提供されています。一般的なSafetensorsやGGUFのほか、Appleシリコン向けに構築されたMLXフォーマットも用意されています。さらにGPTQ、W8A8、FP8、Q4、Q6などの多様なオプションもカバーされており、システム管理者は既存の環境に合わせて自由に選択できます。詳細なアーキテクチャ情報を知りたい場合は、Hugging Faceのモデルページや関連モデルコレクションをチェックすることを強くお勧めします。

最後に、公式からの実務上のヒントを共有します。主要な推論エンジン（vLLM、SGLang、llama.cppなど）を使用してMarkdown OCRコンテンツ抽出を行う際は、「ページごと（page by page）」に処理することをお勧めします。ドキュメントを1ページずつモデルに読み込ませることで、並列計算の利点を最大限に活かせるだけでなく、処理速度と最終的な抽出結果もより美しくなります。

ドキュメント情報の自動処理は、常に乱雑なレイアウトとの戦いでした。しかし、このようにコンパクトで思考が明晰、かつ構造化データとOCRを完璧に融合させたオープンソースの利器が登場したことで、複雑な情報抽出の難題を解決することは、今やずっと容易なことになったようです。

よくある質問 (FAQ)

Q1：NuExtract3は従来のドキュメント処理やOCRツールと何が違うのですか？ A：従来のドキュメント処理は通常、構造化データ抽出（JSON出力）とコンテンツ抽出（Markdown出力のOCR）という2つの独立したシステムに分かれていました。NuExtract3の最大の突破口は、これら2つのタスクを単一の40億パラメータモデルに完璧に統合した点にあります。これにより、企業は一つのシステムを維持するだけで異なるビジネスニーズを満たすことができ、デプロイプロセスを大幅に簡素化できます。

Q2：レイアウトが複雑な（複雑な表やページをまたぐような）ドキュメントに対して、NuExtract3のパフォーマンスはどうですか？ A：非常に優れています。「思考の言語化（thinking out loud）」推論機能を導入しているためです。回答を出す前に、モデルは全体構造から詳細までを推論し、潜在的なレイアウトの罠を予測します。さらに重要なのは、強化学習によって、平均して生成される思考トークン数を約338個に抑えており、抽出の品質、計算コスト、および処理遅延の間で極めて優れたバランスを実現している点です。

Q3：「フリーフォーム指示（Freeform instructions）」のメリットは何ですか？ A：以前はモデルを誘導するために、フィールド名の中にプロンプトを無理やり詰め込む必要がありました（例：「右下のカードアクセスコード」）。フリーフォーム指示があれば、テンプレートの中に日常語で「アクセスコードは6桁で、通常はカードの右下にあります」といった指示を直接追加できます。この方法はより直感的で、情報取得の精度を大幅に向上させます。

Q4：NuExtract3のローカルデプロイは、ハードウェアリソースを大量に消費しますか？ A：いいえ、全くそんなことはありません。学習には8枚のH100 GPUを使用しましたが、推論時のハードウェア要件は非常に親しみやすいものです。約4GBのビデオメモリ（VRAM）があればスムーズに動作します。公式からはSafetensors、GGUF、MLXのほか、GPTQ、W8A8、FP8などの各種量子化フォーマットが提供されており、ほとんどのデバイスでホスティングが可能です。

Q5：数ページにわたる長いドキュメントを処理する際の実務上のアドバイスはありますか？ A： Markdownコンテンツ抽出を行う際は、「ページごと（page by page）」に処理することを公式が推奨しています。長いドキュメントを分割して1ページずつモデルに読み込ませることで、最高の抽出結果が得られるだけでなく、並列計算をより効果的に利用して推論速度を向上させることができます。助。

Featured Partners

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

Recommended for You

バ …

tool

バイドゥ Unlimited-OCR 徹底解説：定数KVキャッシュ、R-SWA、および32K長文OCRのデプロイ実戦

タイトル：断片化されたスキャンと決別：バイドゥUnlimited-OCRの定数KVキャッシュとデプロイ実戦数十ページの長文PDFを処理するたびにサーバーメモリがクラッシュしていませんか？本記事では、バイドゥが2026年にリリースしたオープンソースプロジェクト「Unlimited-OCR」を徹底解説。R-SWA注意機構と定数KVキャッシュ技術について探求し、32Kトークンの解析タスクを達成するためのSGLang高並列デプロイガイドを提供します。長文ドキュメントの処理は、常に技術的な悪夢でした。50ページの財務諸表や複雑な技術マニュアルをモデルに入力しようとすると、サーバーメモリは確実にパンクしてしまいます。エンジニアはスクリプトを書いてドキュメントを無数の小さな断片に分割するしかありませんでした。その結果、表は途中で切断され、前後の論理的な関連性は消失し、最後には破碎した情報を再構築するためにさらに複雑なコードを書く羽目になります。正直なところ、このような妥協は非常にストレスフルなものです。しかし、この行き詰まった状況に転機が訪れました。バイドゥは2026年6月22日、Unlimited-OCRプロジェクトを正式に公開し、「長視野解析の単一処理」を打ち出しました。このオープンソースソリューションは、従来の光学的文字認識技術における最大のメモリ制限問題に正面から取り組んでいます。プロジェクトは公開直後からGitHubで550以上のスターと43のフォークを獲得しました。今日は、この技術の裏側にある論理を徹底的に解剖し、なぜこのモデルが一度に最大32,000トークンを処理できるのか、その魔法を明らかにします。メモリはもはやモンスターではない：定数KVキャッシュの驚異このプロジェクトに触れたばかりの開発者からよく聞かれるのは、「このモデルと従来の手法は何が違うのか？」という質問です。答えはメモリ管理メカニズムの中にあります。従来のモデルは、長文の情報を生成する際、入力長さに伴ってKVキャッシュ（Key-Value Cache）が線形、あるいは幾何級数的に増加します。これはまるで、長い数字の列を暗記しようとして、後半になると脳がオーバーヒートするようなものです。システムはクラッシュを防ぐために、強制的に並列数を下げたり、入力長さを制限したりするしかありません。 Unlimited-OCRは、「定数KVキャッシュ」という切り札を持ち出しました。極限まで最適化されたキャッシュ管理戦略により、デコード処理中のメモリ消費量をほぼ一定の範囲内に封じ込めることに成功しました。これは、10ページの契約書でも100ページの仕様書でも、単一リクエストで消費されるGPUメモリリソースが安定した状態を維持できることを意味します。突然の長文ドキュメントによる予期せぬサーバー停止はなくなり、システム安定性は飛躍的に向上しました。人間の読解をシミュレート：R-SWA参照スライディングウィンドウ機構超長文テキストの単一解析を達成するには、メモリを圧縮するだけでは不十分で、モデルは前後関係を「理解」しなければなりません。ここで言及しなければならないのが、R-SWA（参照型スライディングウィンドウ注意機構）という技術的ブレイクスルーです。人間が分厚い専門書をどのように読んでいるかを想像してみてください。50ページ目の専門用語を読んでいるとき、読者は通常、前の目次や用語解説のページを指で挟んでおき、詳細を確認しながら全体構造を参照します。R-SWAはまさに同じことを行っています。従来のスライディングウィンドウメカニズムは、計算リソースは節約できても「健忘症」になりがちで、後半を見ると前半を忘れてしまいます。R-SWAは、基準モデルのデコーダー内の伝統的な注意層を巧妙に置き換えます。スライディングウィンドウで局所的な詳細を処理する際、全体的な参照トークンを保持します。このメカニズムが介入することで、モデルは最後のページを解析する際にも、最初のページの脈絡をしっかりと掴んでおり、文脈断裂の痛点を完全に解決しました。巨人の肩に乗る：技術の継承と融合業界にはすでに優れた視覚解析モデルが多数存在します。研究開発チームは今回、車輪の再発明をするのではなく、最先端モデルの貴重な知見を融合させる道を選びました。このアーキテクチャの基本となるマルチモーダル理解能力は、Deepseek-OCRとDeepseek-OCR-2から多くの養分を吸収しており、特に複雑なレイアウト識別における精度の高さに貢献しています。同時に、チームは自社製PaddleOCRが工業現場で培ってきた安定性も借用しました。これらの強みを統合して初めて、32Kトークンを単一処理できるモンスター級のアプリケーションが誕生したのです。実戦演習：HuggingfaceからSGLangへの高並列デプロイ理論は十分です。次は実戦的な話に移りましょう。幸いなことに、この強力なモデルは非常にフレンドリーなMITオープンソースライセンスを採用しており、誰でも自由にダウンロードして商業プロジェクトに適用できます。もう一つ、開発者が最も気にする質問は「PDFファイルを直接読み込めるか？特別なハードウェアが必要か？」という点です。答えは明確です。プロジェクトはPyMuPDFパッケージをネイティブ統合してPDFから画像への変換フローを処理するだけでなく、非常に高いデプロイ柔軟性も備えています。十分なGPUメモリを備えたNVIDIA GPUを用意し、Python 3.12.3とCUDA 12.9環境を整えれば、Huggingface transformersインターフェースを通じて高速に推論を開始できます。本番環境に展開する場合、SGLangを使用してローカル推論サーバーを構築することを強くお勧めします。SGLangはOpenAIと完全に互換性のあるAPIエンドポイントを提供し、フロントエンドからストリームリクエストを送信するのを容易にします。環境の純粋性と一貫性を保つため、uvツールを使用して仮想環境を管理するのは賢明な選択です。基本的な設定ロジックは以下の通りです： # uvを使用して仮想環境を作成し、アクティベート uv venv source .venv/bin/activate # 特定バージョンのSGLangとPDF処理パッケージをインストール pip install ./wheel/sglang-*.whl pip install kernels==0.9.0 PyMuPDF # 高効率推論サーバーを起動し、ポート30000をオープン python -m sglang.launch_server --model-path ./path_to_model --port 30000 サーバーが立ち上がれば、作業効率は劇的に向上します。プロジェクトに組み込まれたinfer.pyという小さなツールは、膨大なファイルを処理する際の救世主です。これは自動的にサーバーを起動し、歴史的なPDFファイルや画像が入ったフォルダー全体に対して高並列リクエストを送信できます。2026年6月のサーバー室は暑いかもしれませんが、この清潔で機敏なバッチ処理アーキテクチャは、確実にサーバーの負荷を下げ、エンジニアのストレスも軽減してくれるはずです。 OCRの枠を超えた未来の可能性振り返ってみると、Unlimited-OCRがもたらした衝撃は、単に数十ページの財務諸表を解析したことだけにとどまりません。ここには非常に注目すべき点があります。 R-SWAは本質的に、汎用的な解析注意機構です。それが極めて低い計算コストで視覚ドキュメント内の長文の難問を解決できるのであれば、このロジックは当然他の分野にも適用可能です。例えば、このメカニズムを自動音声認識（ASR）タスクに拡張して数時間の会議録音を処理したり、機械翻訳に応用して、小説全体の翻訳において主要キャラクターの性格や語り口調を一貫して維持したりするようなことが考えられます。この技術の可能性は、まだ始まったばかりです。単一処理での超長文視野が当たり前になれば、開発者は毎日メモリオーバーフローエラーと格闘するのではなく、本来のビジネスロジックに集中できるようになります。お時間があれば、GitHubからソースコードを落として、50ページのドキュメントを一気に解析する流暢さをぜひ体験してみてください。これは、ドキュメント処理パイプラインに対するあなたの既存の認識を確実に変えるはずです。 Q&A Q：バイドゥUnlimited-OCRとは何ですか？また、従来のOCRのどのような課題を解決しますか？ A：Unlimited-OCRは、バイドゥが2026年6月22日にリリースしたオープンソースの光学的文字認識プロジェクトであり、「長視野解析の単一処理時代」を牽引するものです。従来のOCRモデルが数十ページのPDFなどの長文ドキュメントを処理する際にメモリが爆発してサーバーがクラッシュし、強制的にファイルを「断片化」せざるを得なかった課題を解決しました。Deepseek-OCRの能力をさらなる高みへ引き上げることを目指しています。 Q：Unlimited-OCRの核心技術は何ですか？なぜ32Kトークンを単一処理できるのですか？ A：その核心技術は「参照型スライディングウィンドウ注意機構（R-SWA）」と「定数KVキャッシュ（Constant KV Cache）」の導入にあります。これにより、デコード処理中のGPUメモリ消費量を定数範囲内にロックできます。これにより注意機構の計算コストを大幅に削減できるだけでなく、モデルはスライディングウィンドウで局所的な詳細を処理する際、全体的な参照トークンを保持でき、数十ページのドキュメントを単一解析しても脈絡が途切れることはありません。 Q：開発者がローカル環境でデプロイする場合、どのフレームワークが推奨されますか？ A：非常に高いデプロイ柔軟性を備えています。開発者はNVIDIA GPU環境下で、直接Huggingface transformersを通じて推論できます（Python 3.12.3とCUDA 12.9をサポート）。高並列の生産環境向けには、SGLangを使用してローカルサーバーを構築することを強く推奨します。OpenAIと完全に互換性のあるAPIエンドポイントを提供し、開発者は直接ストリームリクエストを送信できます。 Q：大量のPDFファイルを転写する必要がある場合、バッチ処理機能はありますか？ A：あります。環境構築段階で、PDFから画像への変換フローを処理するためにPyMuPDFパッケージをインストールすることを推奨します。また、プロジェクトには強力なinfer.pyというツールが含まれており、自動的にSGLangサーバーを起動できるだけでなく、画像やPDFのフォルダー全体に対して高並列バッチ推論リクエストを送信でき、大量ファイルの自動化処理フローを大幅に簡素化しました。

Jun 29, 2026 Read →

0 …

tool

0.9B パラメータで SOTA に挑戦！智譜 GLM-OCR オープンソース化: ドキュメント解析を 10 倍高速化

智譜 AI (Zhipu AI) が GLM-OCR モデルをオープンソース化。わずか 0.9B のパラメータで、複雑な表や数式の認識において SOTA レベルに到達。GPT-5.2 や Gemini-3-Pro に肉薄する性能を持ちながら、推論コストは従来の OCR の 10 分の 1 です。この軽量ドキュメント解析ツールをデプロイし、Markdown と JSON の構造化出力を実現する方法を今すぐチェック！正直なところ、過去数年間の AI の発展は、ある種の神話を生み出しているようです。モデルのパラメータ数が大きければ大きいほど、すべての問題を解決できるというものです。各テクノロジー大手は、数百億、さらには数千億パラメータのマルチモーダル大規模モデルを競ってリリースしています。しかし、開発者や企業がこれらの巨大なモデルを実際に適用しようとすると、高額な計算コストと絶望的な遅延が最大の障害となることがよくあります。もっと軽量で賢い解決策はないのでしょうか？智譜 AI (Zhipu AI) が最新リリースした GLM-OCR は、まさにこの膠着状態を打破するものです。この軽量で専門的な OCR モデルは、パラメータ規模がわずか 0.9B です。よく考えてみてください。1B 未満のサイズというのは、取るに足らないもののように聞こえます。しかし、権威あるリーダーボード OmniDocBench V1.5 の最新データによると、この「小型」モデルは 94.62 スコアでトップに立ち、多くのコアシナリオにおいて、クローズドソースの大規模モデルである GPT-5.2 や Gemini-3-Pro さえも凌駕しています。これは単なる技術的なアップデートではなく、効率性の全面的な再構築です。小よく大を制す: 究極のコストパフォーマンスとスピードツールの実用性を測る上で、スピードは間違いなく絶対的な指標です。同じハードウェア環境とシングルコピーのテスト条件下で、GLM-OCR は驚くべきスループットを示しました。PDF ドキュメントを処理する場合、毎秒 1.86 ページ、単一の画像を処理する場合でも毎秒 0.67 枚の速度に達します。このようなパフォーマンスは、同種のモデルを大幅に上回っています。さらに重要なのは、デプロイの柔軟性です。パラメータ数がわずか 0.9B であるため、vLLM や SGLang などの主要なフレームワークでのデプロイを完全にサポートしています。これは、企業がローカルサーバーや、計算能力の限られたエッジデバイス上でもこのシステムを実行できることを意味します。智譜の公式技術ドキュメントによると、この軽量設計により推論遅延と計算オーバーヘッドが大幅に削減され、全体的な運用コストは従来の OCR ソリューションの約 10 分の 1 になります。

Feb 3, 2026 Read →

D …

tool

DeepSeek-OCR 2登場：機械がついに人間のように「拾い読み」する視覚ロジックを習得

DeepSeekチームは最近、オープンソースコミュニティに再び衝撃を与えました。今回彼らがもたらした DeepSeek-OCR 2 は、単にOCR（光学文字認識）の精度を数パーセント向上させただけではありません。このモデルは、長年見過ごされてきた、しかし極めて重要な核心的問題に触れています。それは、機械が画像を見る方法は、実はこれまでずっと間違っていたということです。既存の視覚モデルを注意深く観察すると、それらにはある「悪い癖」があることに気づくでしょう。画像の内容が何であれ、それらは常に左上隅から右下へと機械的にスキャン（ラスタースキャン）します。しかし、これは本当に正しい読み方でしょうか？新聞を読んだり、複雑な図表を見たり、ウェブページを閲覧したりするときの目の動きを考えてみてください。あなたの目は、見出し、欄、画像の論理的関係に従って「ジャンプ」しながら動いています。これこそが人間の読書の直感です。 DeepSeek-OCR 2の核心的なブレークスルーは、この「視覚的因果フロー（Visual Causal Flow）」を機械に教え込もうとした点にあります。なぜ従来の「スキャン式」読書は時代遅れなのか？これは非常に興味深い現象です。現在の視覚言語モデル（VLMs）の多くは、2D画像を無理やり1Dのシーケンスに平坦化しており、その順序は固定されています。単純な画像であればこの方法で問題ありませんが、多段組みの学術論文、ネストされた表、あるいはテキストと画像が入り混じった雑誌など、複雑なドキュメントレイアウトに遭遇すると、モデルは「混乱」してしまいます。なぜなら、空間的に隣接していることが、意味的につながっていることを表すとは限らないからです。 DeepSeekの研究者たちは、この問題を解決するには、単にパラメータを積み上げるだけでは不十分だと気づきました。彼らは全く新しい概念を提唱しました。それはエンコーダ（Encoder）に推論能力を持たせるということです。これこそがDeepSeek-OCR 2の秘密兵器 —— DeepEncoder V2 です。それはもはや受動的にピクセルを受け取るだけのカメラではなく、読む前にまず「思考を整理する」ことを知っている前頭葉のようなものです。 DeepEncoder V2：LLMの脳で世界を見るこの部分の技術的な詳細は非常に興味深いです。通常、視覚モデルのエンコーダにはCLIPのようなアーキテクチャが使用されます。しかし、DeepSeekは今回大胆な試みを行いました。彼らはエンコーダを言語モデル（LLM）に置き換えたのです。具体的には、彼らは Qwen2-0.5B を視覚エンコーダのベースとして使用しました。見間違いではありません。視覚信号を処理するために言語モデルを使用しているのです。ここにあるロジックは、言語モデルは生まれつきシーケンスと因果関係を処理するのが得意だということです。この「ハイブリッド」アーキテクチャはどのように機能するのか？ Vision Tokenizer：まず、画像は軽量なTokenizer（SAM-baseベース）を通過します。このステップは主に情報を圧縮し、膨大なピクセルデータをモデルが消化できる小さな塊にするためのものです。視覚的因果フロー（Visual Causal Flow）：これが最も素晴らしい部分です。モデルは一連の「学習可能なクエリ（Learnable Queries）」を導入しました。これらのクエリトークンは位置によって機械的に配置されるのではなく、因果的注意機構（Causal Attention Mechanism）を採用しています。つまり、各クエリトークンは情報を読み取る際に、以前の文脈を参照し、論理的に次に来るべき内容を画像の中から能動的に「掴み」に行きます。簡単に言えば、このプロセスはモデルがこう言っているようなものです。「よし、タイトルは読み終わった。論理的に考えて、次は隣にある関係のない広告画像ではなく、最初の段落のテキストを探すべきだ。」パフォーマンスとコストの究極のバランス：Geminiへの挑戦 AI分野において、強力なパフォーマンスは通常、高価な計算能力を意味します。しかし、DeepSeek-OCR 2はこの点において優れた制御力を発揮しています。この新しいアーキテクチャを通じて、DeepSeek-OCR 2は極めて高い圧縮率を維持しながら、理解能力を向上させることができました。論文では非常に具体的な数字が挙げられています。LLMに入力される視覚トークンの数は 256から1120 の間に制御されています。なぜ1120なのか？これはランダムに選ばれた数字ではありません。これはまさにGoogleの Gemini-3 Pro モデルの最大視覚トークン予算です。DeepSeekは明らかに準備万端であり、同じリソース制限下で、オープンソースアーキテクチャがトップクラスのクローズドソースモデルの効率に匹敵、あるいは凌駕できることを証明しようとしています。ドキュメント解析能力を専門にテストするベンチマーク OmniDocBench v1.5 において、DeepSeek-OCR 2は 91.09% という高スコアを記録し、前世代と比較して 3.73% 向上しました。さらに重要なのは、「読み取り順序」の指標においてエラー率が大幅に低下したことです。これは、「視覚的因果フロー」が単なる理論上の革新ではなく、実際のアプリケーションにおいてもモデルにスムーズに「読ませる」ことを可能にしていることを直接証明しています。実際の応用：実験室から本番環境へ多くの論文は発表後に棚上げされてしまいますが、DeepSeek-OCR 2はすでに実戦の洗礼を受けた製品です。 DeepSeekチームによると、このモデルはすでに彼らの内部生産プロセスに適用されており、大量のPDFトレーニングデータの処理やオンラインOCRサービスで使用されています。これは開発者にとって朗報です。なぜなら、モデルの安定性と実用性が、厳選されたいくつかのデモケースでのベンチマークだけでなく、大規模なデータによって検証済みであることを意味するからです。このモデルを自分で体験したい場合、DeepSeekは非常に太っ腹なことに、コードと重みをすべてオープンソース化しています。GitHub で完全なプロジェクトを見つけるか、Hugging Face でモデルの重みを直接ダウンロードできます。

Jan 28, 2026 Read →

オープンソース文書処理の新基準！NuExtract3 視覚言語モデルの実測とデプロイ解析

オープンソース文書処理の新基準：NuExtract3の「二刀流」と推論技術を解析

構造化データとOCRの完璧な統合

賢く、かつコスト効率の高い推論能力

エンジニアの負担を軽減するカスタム指示とフィールド制御

ハードウェアのハードルは極めて低く、ローカルデプロイも容易

よくある質問 (FAQ)

DMflow.chat

DMflow.chat

videoweaver.app

DMflow.chat

DMflow.chat

videoweaver.app

Recommended for You

バイドゥ Unlimited-OCR 徹底解説：定数KVキャッシュ、R-SWA、および32K長文OCRのデプロイ実戦

0.9B パラメータで SOTA に挑戦！智譜 GLM-OCR オープンソース化: ドキュメント解析を 10 倍高速化

DeepSeek-OCR 2登場：機械がついに人間のように「拾い読み」する視覚ロジックを習得

Leaving Website