dots.ocr：地上最強の多言語ドキュメント解析ツール？小規模モデルが世界を覆す

の推論速度（Inference Speed

tool

2025-08-10

複雑な文書認識とデータ抽出にまだ頭を悩ませていますか？新登場の dots.ocr は、わずか1.7Bの軽量モデルで、多言語文書解析の分野で驚異的なSOTA性能を発揮し、レイアウト検出とコンテンツ認識を統一しただけでなく、速度と簡潔さで多くの大規模モデルを圧倒しています。

あなたも書類の山に埋もれたことがありますか？

正直に言うと、私たちは毎日さまざまな書類を扱っています。スキャンしたPDF契約書、グラフが満載のレポート、複雑な数式が混じった研究論文など、その中の文字やデータをきちんと「取り出す」だけで、頭が痛くなるほどです。従来のOCR（光学文字認識）ツールは、単純なテキストの処理ではまあまあですが、レイアウトが複雑になったり、複数の言語が混在したりすると、その効果は往々にして期待外れです。

これが、文書解析（Document Parsing）技術が非常に重要である理由です。それは単に「文字を読む」だけでなく、文書の構造を理解すること、つまり、どこが見出しで、どこが表で、テキストの読み順はどうか、といったことを理解する必要があります。これまで、これを実現するには、複数のモデルで構成された複雑なシステムが必要で、それは重くて非効率的でした。

しかし、もし今、あらゆる種類の複雑な文書を正確に理解し、多言語をサポートし、しかもアーキテクチャがシンプルで高速なツールがあったとしたらどうでしょう？少し話がうますぎるように聞こえませんか？今日ご紹介する主役の dots.ocr は、まさにこれらの問題を解決するために生まれたようです。

dots.ocrとは？一つのモデルですべてを解決

簡単に言うと、dots.ocr は強力な多言語文書解析ツールです。しかし、その最もクールな点は、レイアウト検出（Layout Detection）とコンテンツ認識（Content Recognition）という、本来別々に処理する必要があった2つのタスクを、単一の視覚言語モデル（Vision-Language Model, VLM）に統合したことです。

これは何を意味するのでしょうか？想像してみてください。従来の方法は、工場の生産ラインのようなものです。まず一台の機械（検出モデル）で文書内の表や段落を見つけ、それらの部分を別の機械（認識モデル）に送って内容を読み取らせる必要があります。プロセスは煩雑で、どこか一つの环节でエラーが発生すると、結果はめちゃくちゃになります。

dots.ocr は、まるで万能の執事のようです。文書全体を見て、彼に「このレポートの表と結論を整理して」と指示するだけで、彼はワンステップで完璧にこなしてくれます。この統一された簡潔なアーキテクチャが、伝統を覆す第一歩です。

なぜdots.ocrはこれほど注目されているのか？口先だけではない

口で言うだけでは証拠になりません。dots.ocr の強力さは、さまざまな評価データと実際の応用で示されています。主に4つのハイライトがあり、それによって多くのモデルの中で際立っています。

驚異的なパフォーマンス：小さくても強力、侮れない

dots.ocr のベースモデルはわずか1.7Bのパラメータしかなく、数十億、さらには数百億のパラメータを持つ巨大なモデルよりもはるかに小さいですが、そのパフォーマンスはトップレベルです。

上の評価グラフから明らかなように、エンドツーエンドの評価では：

英語（EN）： dots.ocr は 87.5 の高スコアを獲得し、すべての競合他社をリードしています。
中国語（ZH）： 84.0 点を獲得し、同様に優れたパフォーマンスを示しています。
多言語（Multilingual）： 82.3 のスコアでそのクロス言語処理能力を証明し、再びトップに立ちました。

さらに特筆すべきは、権威ある汎用文書解析ベンチマーク OmniDocBench において、dots.ocr がテキスト、表、読み順のすべてで最先端（SOTA）のレベルに達したことです。数式のような非常に複雑な認識タスクに直面しても、そのパフォーマンスはDoubao-1.5やgemini2.5-proのようなはるかに大規模なモデルに匹敵します。これは、モデルのサイズがパフォーマンスを決定する唯一の基準ではないことを証明しています。

言語の壁を越える：真の多言語サポート

多くのOCRツールは多言語対応を謳っていますが、非英語圏、特にリソースの少ない「低リソース言語」の処理では力不足になることがよくあります。dots.ocr はこの点で決定的な優位性を示しています。

中国語や英語などの主要言語で優れたパフォーマンスを発揮するだけでなく、社内で行われた多言語文書ベンチマークテストでは、レイアウト検出とコンテンツ認識の両方で非常に安定した解析能力を示しました。これは、国際的な文書を扱ったり、マイナーな言語のテキストを研究したりする必要があるユーザーにとって、間違いなく朗報です。グラフの多言語スコアがその最良の証拠です。

ミニマルなアーキテクチャ：複雑さに別れを告げ、簡潔さを受け入れる

前述の通り、dots.ocr の最大の革新の一つは、その単一モデルアーキテクチャです。従来の方法は複雑なマルチモデルパイプラインに依存しており、メンテナンスが困難なだけでなく、エラーも発生しやすかったのです。

dots.ocr はこのゲームのルールを根本的に変えました。ユーザーがすべきことは、入力プロンプトを変更するだけで、異なるタスク間を自由に切り替えることができます。表を認識したいですか？表を認識する指示を与えます。要約を抽出したいですか？指示を変えるだけです。これにより、開発と使用のプロセスが大幅に簡素化されるだけでなく、VLMが検出タスクにおいて、DocLayout-YOLOのような従来の専用検出モデルに挑戦する能力を完全に持っていることを証明しました。

高効率で高速：両立は可能

強力なパフォーマンスを追求する一方で、私たちはしばしば速度を犠牲にしなければなりません。しかし、dots.ocr はこの神話を打ち破りました。

それは軽量な1.7Bパラメータの言語モデル上に構築されており、これによりその推論速度（Inference Speed）は、巨大なベースモデル上に構築された競合他社をはるかに上回ります。これは何を意味するのでしょうか？これは、ユーザーがより短い時間でより多くの文書を処理できることを意味し、同時にハードウェアリソースへの要求も低減します。これは、企業レベルの大量処理にとっても、個人開発者の迅速な検証にとっても、非常に魅力的です。

まとめ：文書処理の未来の姿

dots.ocr の登場は、単なる新しいツールの誕生ではありません。それは新しい時代の到来を告げているかのようです。それは、うまく設計された軽量モデルが、特定の分野で巨大な汎用モデルに挑戦し、さらにはそれを超えることができることを証明しました。

強力なパフォーマンス、多言語サポート、簡潔なアーキテクチャ、そして高効率で高速を兼ね備え、現在の文書解析分野の多くの問題を完璧に解決します。複雑な文書と格闘している人々にとって、dots.ocr はエレガントで強力、そして手の届くソリューションを提供します。文書処理の未来は、おそらくこうあるべきです——シンプルで、スマートで、そして非常に効率的であるべきです。

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

Recommended for You

バ …

tool

バイドゥ Unlimited-OCR 徹底解説：定数KVキャッシュ、R-SWA、および32K長文OCRのデプロイ実戦

タイトル：断片化されたスキャンと決別：バイドゥUnlimited-OCRの定数KVキャッシュとデプロイ実戦数十ページの長文PDFを処理するたびにサーバーメモリがクラッシュしていませんか？本記事では、バイドゥが2026年にリリースしたオープンソースプロジェクト「Unlimited-OCR」を徹底解説。R-SWA注意機構と定数KVキャッシュ技術について探求し、32Kトークンの解析タスクを達成するためのSGLang高並列デプロイガイドを提供します。長文ドキュメントの処理は、常に技術的な悪夢でした。50ページの財務諸表や複雑な技術マニュアルをモデルに入力しようとすると、サーバーメモリは確実にパンクしてしまいます。エンジニアはスクリプトを書いてドキュメントを無数の小さな断片に分割するしかありませんでした。その結果、表は途中で切断され、前後の論理的な関連性は消失し、最後には破碎した情報を再構築するためにさらに複雑なコードを書く羽目になります。正直なところ、このような妥協は非常にストレスフルなものです。しかし、この行き詰まった状況に転機が訪れました。バイドゥは2026年6月22日、Unlimited-OCRプロジェクトを正式に公開し、「長視野解析の単一処理」を打ち出しました。このオープンソースソリューションは、従来の光学的文字認識技術における最大のメモリ制限問題に正面から取り組んでいます。プロジェクトは公開直後からGitHubで550以上のスターと43のフォークを獲得しました。今日は、この技術の裏側にある論理を徹底的に解剖し、なぜこのモデルが一度に最大32,000トークンを処理できるのか、その魔法を明らかにします。メモリはもはやモンスターではない：定数KVキャッシュの驚異このプロジェクトに触れたばかりの開発者からよく聞かれるのは、「このモデルと従来の手法は何が違うのか？」という質問です。答えはメモリ管理メカニズムの中にあります。従来のモデルは、長文の情報を生成する際、入力長さに伴ってKVキャッシュ（Key-Value Cache）が線形、あるいは幾何級数的に増加します。これはまるで、長い数字の列を暗記しようとして、後半になると脳がオーバーヒートするようなものです。システムはクラッシュを防ぐために、強制的に並列数を下げたり、入力長さを制限したりするしかありません。 Unlimited-OCRは、「定数KVキャッシュ」という切り札を持ち出しました。極限まで最適化されたキャッシュ管理戦略により、デコード処理中のメモリ消費量をほぼ一定の範囲内に封じ込めることに成功しました。これは、10ページの契約書でも100ページの仕様書でも、単一リクエストで消費されるGPUメモリリソースが安定した状態を維持できることを意味します。突然の長文ドキュメントによる予期せぬサーバー停止はなくなり、システム安定性は飛躍的に向上しました。人間の読解をシミュレート：R-SWA参照スライディングウィンドウ機構超長文テキストの単一解析を達成するには、メモリを圧縮するだけでは不十分で、モデルは前後関係を「理解」しなければなりません。ここで言及しなければならないのが、R-SWA（参照型スライディングウィンドウ注意機構）という技術的ブレイクスルーです。人間が分厚い専門書をどのように読んでいるかを想像してみてください。50ページ目の専門用語を読んでいるとき、読者は通常、前の目次や用語解説のページを指で挟んでおき、詳細を確認しながら全体構造を参照します。R-SWAはまさに同じことを行っています。従来のスライディングウィンドウメカニズムは、計算リソースは節約できても「健忘症」になりがちで、後半を見ると前半を忘れてしまいます。R-SWAは、基準モデルのデコーダー内の伝統的な注意層を巧妙に置き換えます。スライディングウィンドウで局所的な詳細を処理する際、全体的な参照トークンを保持します。このメカニズムが介入することで、モデルは最後のページを解析する際にも、最初のページの脈絡をしっかりと掴んでおり、文脈断裂の痛点を完全に解決しました。巨人の肩に乗る：技術の継承と融合業界にはすでに優れた視覚解析モデルが多数存在します。研究開発チームは今回、車輪の再発明をするのではなく、最先端モデルの貴重な知見を融合させる道を選びました。このアーキテクチャの基本となるマルチモーダル理解能力は、Deepseek-OCRとDeepseek-OCR-2から多くの養分を吸収しており、特に複雑なレイアウト識別における精度の高さに貢献しています。同時に、チームは自社製PaddleOCRが工業現場で培ってきた安定性も借用しました。これらの強みを統合して初めて、32Kトークンを単一処理できるモンスター級のアプリケーションが誕生したのです。実戦演習：HuggingfaceからSGLangへの高並列デプロイ理論は十分です。次は実戦的な話に移りましょう。幸いなことに、この強力なモデルは非常にフレンドリーなMITオープンソースライセンスを採用しており、誰でも自由にダウンロードして商業プロジェクトに適用できます。もう一つ、開発者が最も気にする質問は「PDFファイルを直接読み込めるか？特別なハードウェアが必要か？」という点です。答えは明確です。プロジェクトはPyMuPDFパッケージをネイティブ統合してPDFから画像への変換フローを処理するだけでなく、非常に高いデプロイ柔軟性も備えています。十分なGPUメモリを備えたNVIDIA GPUを用意し、Python 3.12.3とCUDA 12.9環境を整えれば、Huggingface transformersインターフェースを通じて高速に推論を開始できます。本番環境に展開する場合、SGLangを使用してローカル推論サーバーを構築することを強くお勧めします。SGLangはOpenAIと完全に互換性のあるAPIエンドポイントを提供し、フロントエンドからストリームリクエストを送信するのを容易にします。環境の純粋性と一貫性を保つため、uvツールを使用して仮想環境を管理するのは賢明な選択です。基本的な設定ロジックは以下の通りです： # uvを使用して仮想環境を作成し、アクティベート uv venv source .venv/bin/activate # 特定バージョンのSGLangとPDF処理パッケージをインストール pip install ./wheel/sglang-*.whl pip install kernels==0.9.0 PyMuPDF # 高効率推論サーバーを起動し、ポート30000をオープン python -m sglang.launch_server --model-path ./path_to_model --port 30000 サーバーが立ち上がれば、作業効率は劇的に向上します。プロジェクトに組み込まれたinfer.pyという小さなツールは、膨大なファイルを処理する際の救世主です。これは自動的にサーバーを起動し、歴史的なPDFファイルや画像が入ったフォルダー全体に対して高並列リクエストを送信できます。2026年6月のサーバー室は暑いかもしれませんが、この清潔で機敏なバッチ処理アーキテクチャは、確実にサーバーの負荷を下げ、エンジニアのストレスも軽減してくれるはずです。 OCRの枠を超えた未来の可能性振り返ってみると、Unlimited-OCRがもたらした衝撃は、単に数十ページの財務諸表を解析したことだけにとどまりません。ここには非常に注目すべき点があります。 R-SWAは本質的に、汎用的な解析注意機構です。それが極めて低い計算コストで視覚ドキュメント内の長文の難問を解決できるのであれば、このロジックは当然他の分野にも適用可能です。例えば、このメカニズムを自動音声認識（ASR）タスクに拡張して数時間の会議録音を処理したり、機械翻訳に応用して、小説全体の翻訳において主要キャラクターの性格や語り口調を一貫して維持したりするようなことが考えられます。この技術の可能性は、まだ始まったばかりです。単一処理での超長文視野が当たり前になれば、開発者は毎日メモリオーバーフローエラーと格闘するのではなく、本来のビジネスロジックに集中できるようになります。お時間があれば、GitHubからソースコードを落として、50ページのドキュメントを一気に解析する流暢さをぜひ体験してみてください。これは、ドキュメント処理パイプラインに対するあなたの既存の認識を確実に変えるはずです。 Q&A Q：バイドゥUnlimited-OCRとは何ですか？また、従来のOCRのどのような課題を解決しますか？ A：Unlimited-OCRは、バイドゥが2026年6月22日にリリースしたオープンソースの光学的文字認識プロジェクトであり、「長視野解析の単一処理時代」を牽引するものです。従来のOCRモデルが数十ページのPDFなどの長文ドキュメントを処理する際にメモリが爆発してサーバーがクラッシュし、強制的にファイルを「断片化」せざるを得なかった課題を解決しました。Deepseek-OCRの能力をさらなる高みへ引き上げることを目指しています。 Q：Unlimited-OCRの核心技術は何ですか？なぜ32Kトークンを単一処理できるのですか？ A：その核心技術は「参照型スライディングウィンドウ注意機構（R-SWA）」と「定数KVキャッシュ（Constant KV Cache）」の導入にあります。これにより、デコード処理中のGPUメモリ消費量を定数範囲内にロックできます。これにより注意機構の計算コストを大幅に削減できるだけでなく、モデルはスライディングウィンドウで局所的な詳細を処理する際、全体的な参照トークンを保持でき、数十ページのドキュメントを単一解析しても脈絡が途切れることはありません。 Q：開発者がローカル環境でデプロイする場合、どのフレームワークが推奨されますか？ A：非常に高いデプロイ柔軟性を備えています。開発者はNVIDIA GPU環境下で、直接Huggingface transformersを通じて推論できます（Python 3.12.3とCUDA 12.9をサポート）。高並列の生産環境向けには、SGLangを使用してローカルサーバーを構築することを強く推奨します。OpenAIと完全に互換性のあるAPIエンドポイントを提供し、開発者は直接ストリームリクエストを送信できます。 Q：大量のPDFファイルを転写する必要がある場合、バッチ処理機能はありますか？ A：あります。環境構築段階で、PDFから画像への変換フローを処理するためにPyMuPDFパッケージをインストールすることを推奨します。また、プロジェクトには強力なinfer.pyというツールが含まれており、自動的にSGLangサーバーを起動できるだけでなく、画像やPDFのフォルダー全体に対して高並列バッチ推論リクエストを送信でき、大量ファイルの自動化処理フローを大幅に簡素化しました。

Jun 29, 2026 Read →

オ …

tool

オープンソース文書処理の新基準！NuExtract3 視覚言語モデルの実測とデプロイ解析

オープンソース文書処理の新基準：NuExtract3の「二刀流」と推論技術を解析煩雑なドキュメントの処理は、日常的な開発や企業アプリケーションにおいて、しばしば最も頭を悩ませる部分です。しわくちゃになった領収書の写真、独特なレイアウトのPDFファイル、あるいはページをまたぐ複雑なフォームなど、そこから重要な情報を正確に抽出するのは決して簡単なことではありません。誰もが一度はデータ抽出に苦労した経験があるでしょう。しかし今、非常に魅力的な新しい選択肢が登場しました。公式のNuExtract3リリースニュースによると、NuMindチームはQwen3.5-4Bアーキテクチャをベースにした40億パラメータの視覚言語モデル（VLM）をリリースしました。完全にオープンソースのApache-2.0ライセンスを採用し、企業が最も必要とする2つのコア機能を完璧に融合させています。もし開発チームが以前にNuMarkdownの優れたパフォーマンスを体験したことがあるなら、今回の全面的なアップグレード版には間違いなく目を奪われるはずです。構造化データとOCRの完璧な統合スムーズなデータ処理フローを構築するには、多くの場合、複数のツールを組み合わせる必要があります。伝統的に、現代のドキュメント処理は2つの世界に明確に分かれていました。一つは、ドキュメントをJSON形式に変換する「構造化データ抽出」ツールです。この技術は、氏名や金額などのフィールドをシステムに自動入力できるため、銀行や保険会社にとって特に重要であり、多大な人件費と時間を節約できます。もう一つは、コンテンツの抽出を担当する「OCR」技術です。その任務は、ドキュメント全体の内容とレイアウトをそのままMarkdown形式に変換することです。これは、社内文書をAIアシスタントに読み込ませたり、RAG（検索拡張生成）システムを構築したりするための重要な基盤となります。これら2つのタスクは、本質的にはどちらも「ドキュメントを理解する」ということを行っています。それなら、なぜ2つの独立したモデルとして実行する必要があるのでしょうか？これこそが、NuExtract3が解決しようとしている中心的な課題です。開発チームは、構造化抽出とOCRコンテンツ抽出を単一のモデルに統合することに成功しました。この革新的な設計により、企業のデプロイプロセスは大幅に簡素化されます。エンジニアは一つのシステムを維持するだけで、これら2つの異なるビジネスニーズを同時に満たすことができるのです。賢く、かつコスト効率の高い推論能力手書きの表やページをまたいで重なり合うセルを含むスキャン文書に直面すると、現在市場に出回っているパラメータの非常に大きな汎用モデルでさえ、困惑してしまうことがよくあります。このような複雑なレイアウトの罠を解決するために、NuExtract3は非常に実用的な「思考の言語化（thinking out loud）」推論機能を導入しました。最終的な回答を出す前に、モデルは注意深く観察を行います。ドキュメントの全体構造の分析から始め、具体的なフィールド名へと段階的に推論を進めることで、潜在的なレイアウトミスを予測し、回避します。人間が問題を解くようなこの論理こそが、正確にデータを抽出するための秘策なのです。しかし、ここには避けられない現実的な考慮事項があります。「思考」にはコストがかかるということです。一般的なモデルがこの種の推論機能を有効にすると、大量の「思考トークン」を生成しがちです。時には、思考トークンの数が最終的な出力結果の10倍以上になることもあり、計算コストと待機時間が急増してしまいます。予算とパフォーマンスを両立させるため、NuExtract3は学習段階において強化学習を通じてこの点を特別に最適化しました。思考トークンの生成量を、出力トークンと同程度の水準に抑えることができます。平均して約300トークン強で推論を完了できます。これにより、抽出の品質、計算コスト、および処理遅延の間で非常に完璧なバランスを見出しました。さらに素晴らしいことに、開発者はタスクのニーズに応じて、いつでも自由にこの推論機能をオンまたはオフに切り替えることができます。エンジニアの負担を軽減するカスタム指示とフィールド制御データを抽出するのは第一歩にすぎません。その後の果てしないデータクリーニングこそが、真に苦労する部分です。煩雑な後処理を大幅に減らすために、今回のアップグレードではデータ型の精密な制御が特に強化されました。わずか数種類の基礎設定しかなかった前世代と比較して、最新バージョンではサポートする構造化抽出フィールドの型が一気に20種類にまで拡張されました。ISO 8601形式の日付や時間、国コード、多国籍通貨、メールアドレス、電話番号はもちろん、ヨーロッパでよく使われるIBANやBIC形式まで、モデルに正確な出力を要求することができます。これは、多国籍間の契約書や財務諸表を扱う開発者にとって、間違いなく朗報です。以前は、モデルに正しくデータを抽出させるために、エンジニアは「テンプレートエンジニアリング」に知恵を絞らなければなりませんでした。モデルに理解させるために、「右下のカードアクセスコード」といった非常に長いフィールド名を書かなければならないこともありました。しかし、今やそのような苦労は不要です。新システムでは「フリーフォーム指示（Freeform instructions）」のサポートが正式に導入されました。ユーザーはテンプレートの中に、日常的な言葉による指示を直接加えることができます。例えば、モデルに「アクセスコードは6桁の数字で、通常はこのカードの右下に表示されます」と伝えるだけで、モデルはその指示を読み取り、正確にタスクを遂行します。このような人間の日常会話に近いコミュニケーション方法は直感的であるだけでなく、情報取得の精度も大幅に向上させます。ハードウェアのハードルは極めて低く、ローカルデプロイも容易 40億のパラメータと卓越した推論能力を備えていると聞くと、手元のハードウェアでは動かないのではないかと心配する人も多いでしょう。しかし、その心配は無用です。開発チームは、極めて強力な長文理解力を持たせるために、8枚の最高峰GPU「H100」を投入し、丸3日間かけてこのモデルを学習させましたが、エンドユーザー側のハードウェアのハードルは驚くほど低く抑えられています。実際、このモデルは約4GBのビデオメモリ（VRAM）を備えたデバイスがあればスムーズに動作します。これは、大多数の一般的なコンピュータ、さらにはノートパソコンでもローカルホスティングを容易に実現できることを意味します。煩雑なインストール手順を省いてすぐにその実力を確かめたい場合は、登録不要で無料のHugging Face体験スペースで試遊することができます。高度な統合ニーズを持つ企業向けには、公式から多様な重み量子化フォーマットが提供されています。一般的なSafetensorsやGGUFのほか、Appleシリコン向けに構築されたMLXフォーマットも用意されています。さらにGPTQ、W8A8、FP8、Q4、Q6などの多様なオプションもカバーされており、システム管理者は既存の環境に合わせて自由に選択できます。詳細なアーキテクチャ情報を知りたい場合は、Hugging Faceのモデルページや関連モデルコレクションをチェックすることを強くお勧めします。最後に、公式からの実務上のヒントを共有します。主要な推論エンジン（vLLM、SGLang、llama.cppなど）を使用してMarkdown OCRコンテンツ抽出を行う際は、「ページごと（page by page）」に処理することをお勧めします。ドキュメントを1ページずつモデルに読み込ませることで、並列計算の利点を最大限に活かせるだけでなく、処理速度と最終的な抽出結果もより美しくなります。ドキュメント情報の自動処理は、常に乱雑なレイアウトとの戦いでした。しかし、このようにコンパクトで思考が明晰、かつ構造化データとOCRを完璧に融合させたオープンソースの利器が登場したことで、複雑な情報抽出の難題を解決することは、今やずっと容易なことになったようです。よくある質問 (FAQ) Q1：NuExtract3は従来のドキュメント処理やOCRツールと何が違うのですか？ A：従来のドキュメント処理は通常、構造化データ抽出（JSON出力）とコンテンツ抽出（Markdown出力のOCR）という2つの独立したシステムに分かれていました。NuExtract3の最大の突破口は、これら2つのタスクを単一の40億パラメータモデルに完璧に統合した点にあります。これにより、企業は一つのシステムを維持するだけで異なるビジネスニーズを満たすことができ、デプロイプロセスを大幅に簡素化できます。 Q2：レイアウトが複雑な（複雑な表やページをまたぐような）ドキュメントに対して、NuExtract3のパフォーマンスはどうですか？ A：非常に優れています。「思考の言語化（thinking out loud）」推論機能を導入しているためです。回答を出す前に、モデルは全体構造から詳細までを推論し、潜在的なレイアウトの罠を予測します。さらに重要なのは、強化学習によって、平均して生成される思考トークン数を約338個に抑えており、抽出の品質、計算コスト、および処理遅延の間で極めて優れたバランスを実現している点です。 Q3：「フリーフォーム指示（Freeform instructions）」のメリットは何ですか？ A：以前はモデルを誘導するために、フィールド名の中にプロンプトを無理やり詰め込む必要がありました（例：「右下のカードアクセスコード」）。フリーフォーム指示があれば、テンプレートの中に日常語で「アクセスコードは6桁で、通常はカードの右下にあります」といった指示を直接追加できます。この方法はより直感的で、情報取得の精度を大幅に向上させます。 Q4：NuExtract3のローカルデプロイは、ハードウェアリソースを大量に消費しますか？ A：いいえ、全くそんなことはありません。学習には8枚のH100 GPUを使用しましたが、推論時のハードウェア要件は非常に親しみやすいものです。約4GBのビデオメモリ（VRAM）があればスムーズに動作します。公式からはSafetensors、GGUF、MLXのほか、GPTQ、W8A8、FP8などの各種量子化フォーマットが提供されており、ほとんどのデバイスでホスティングが可能です。 Q5：数ページにわたる長いドキュメントを処理する際の実務上のアドバイスはありますか？ A： Markdownコンテンツ抽出を行う際は、「ページごと（page by page）」に処理することを公式が推奨しています。長いドキュメントを分割して1ページずつモデルに読み込ませることで、最高の抽出結果が得られるだけでなく、並列計算をより効果的に利用して推論速度を向上させることができます。助。

May 26, 2026 Read →

0 …

tool

0.9B パラメータで SOTA に挑戦！智譜 GLM-OCR オープンソース化: ドキュメント解析を 10 倍高速化

智譜 AI (Zhipu AI) が GLM-OCR モデルをオープンソース化。わずか 0.9B のパラメータで、複雑な表や数式の認識において SOTA レベルに到達。GPT-5.2 や Gemini-3-Pro に肉薄する性能を持ちながら、推論コストは従来の OCR の 10 分の 1 です。この軽量ドキュメント解析ツールをデプロイし、Markdown と JSON の構造化出力を実現する方法を今すぐチェック！正直なところ、過去数年間の AI の発展は、ある種の神話を生み出しているようです。モデルのパラメータ数が大きければ大きいほど、すべての問題を解決できるというものです。各テクノロジー大手は、数百億、さらには数千億パラメータのマルチモーダル大規模モデルを競ってリリースしています。しかし、開発者や企業がこれらの巨大なモデルを実際に適用しようとすると、高額な計算コストと絶望的な遅延が最大の障害となることがよくあります。もっと軽量で賢い解決策はないのでしょうか？智譜 AI (Zhipu AI) が最新リリースした GLM-OCR は、まさにこの膠着状態を打破するものです。この軽量で専門的な OCR モデルは、パラメータ規模がわずか 0.9B です。よく考えてみてください。1B 未満のサイズというのは、取るに足らないもののように聞こえます。しかし、権威あるリーダーボード OmniDocBench V1.5 の最新データによると、この「小型」モデルは 94.62 スコアでトップに立ち、多くのコアシナリオにおいて、クローズドソースの大規模モデルである GPT-5.2 や Gemini-3-Pro さえも凌駕しています。これは単なる技術的なアップデートではなく、効率性の全面的な再構築です。小よく大を制す: 究極のコストパフォーマンスとスピードツールの実用性を測る上で、スピードは間違いなく絶対的な指標です。同じハードウェア環境とシングルコピーのテスト条件下で、GLM-OCR は驚くべきスループットを示しました。PDF ドキュメントを処理する場合、毎秒 1.86 ページ、単一の画像を処理する場合でも毎秒 0.67 枚の速度に達します。このようなパフォーマンスは、同種のモデルを大幅に上回っています。さらに重要なのは、デプロイの柔軟性です。パラメータ数がわずか 0.9B であるため、vLLM や SGLang などの主要なフレームワークでのデプロイを完全にサポートしています。これは、企業がローカルサーバーや、計算能力の限られたエッジデバイス上でもこのシステムを実行できることを意味します。智譜の公式技術ドキュメントによると、この軽量設計により推論遅延と計算オーバーヘッドが大幅に削減され、全体的な運用コストは従来の OCR ソリューションの約 10 分の 1 になります。

Feb 3, 2026 Read →

dots.ocr：地上最強の多言語ドキュメント解析ツール？小規模モデルが世界を覆す

あなたも書類の山に埋もれたことがありますか？

dots.ocrとは？一つのモデルですべてを解決

なぜdots.ocrはこれほど注目されているのか？口先だけではない

驚異的なパフォーマンス：小さくても強力、侮れない

言語の壁を越える：真の多言語サポート

ミニマルなアーキテクチャ：複雑さに別れを告げ、簡潔さを受け入れる

高効率で高速：両立は可能

まとめ：文書処理の未来の姿

DMflow.chat

videoweaver.app

DMflow.chat

DMflow.chat

videoweaver.app

DMflow.chat

Recommended for You

バイドゥ Unlimited-OCR 徹底解説：定数KVキャッシュ、R-SWA、および32K長文OCRのデプロイ実戦

オープンソース文書処理の新基準！NuExtract3 視覚言語モデルの実測とデプロイ解析

0.9B パラメータで SOTA に挑戦！智譜 GLM-OCR オープンソース化: ドキュメント解析を 10 倍高速化

Leaving Website