Nanonets-OCR-s：単なるOCRじゃない！オープンソースモデルで画像を完璧なMarkdownに簡単変換、LaTeXや表も対応

詳細を読む Colabインスタント

tool

2025-06-13

Nanonets-OCR-sは、文書画像を構造化されたMarkdownに正確に変換する、強力なオープンソースOCRモデルです。複雑なLaTeX方程式から、表、署名、透かしまで、すべてを完璧に処理します。開発者や研究者必携！

開発者、研究者、あるいは大量の文書を扱う人なら誰でも、こんな頭痛の種に遭遇したことがあるはずです。スキャンされたPDFや画像ファイルに重要なコンテンツがあっても、一語一語手で打ち込むしかない。従来のOCR（光学式文字認識）ツールは多少は役立つかもしれませんが、結果はしばしば文字化けの山で、書式はすべて失われ、特に表や数式に関しては悲惨です。

正直なところ、その苛立ちは誰もが知っています。

しかし、テキストを理解するだけでなく、文書の「構造」と「文脈」も理解するツールがあったらどうでしょうか？本日、私たちはそのような画期的なオープンソースモデル、Nanonets-OCR-sを紹介します。

これは、あらゆる種類の複雑な文書画像を、クリーンで整然とした構造化されたMarkdown形式に変換することを唯一の使命とする、強力で軽量（3B）な視覚言語モデル（VLM）です。そうです、表を理解し、数式を解析でき、署名やチェックボックスなどの細部さえも見逃しません。

テキストだけでなく、数式も理解（LaTeX認識）

まだ論文の数式を手で書き写していますか？そんな苦しい日々は終わりました。

Nanonets-OCR-sの最も驚くべき機能の1つは、LaTeX数式に対する高い認識精度です。インラインレベルの数式とブロックレベルの数式をインテリジェントに区別し、それぞれ $...$ と$$...$$の標準形式で出力できます。

これは、物理学の論文、学術報告書、工学ノートなど、複雑な数式をワンクリックで変換し、Markdownエディタや研究ノートに完璧な書式で直接貼り付けることができることを意味します。

画像の中の画像？問題ありません、説明を書いてあげます

文書にグラフ、ロゴ、または埋め込み画像が含まれている場合、一般的なOCRツールは通常それらを直接無視します。しかし、Nanonets-OCR-sはより賢く、構造化された<img>タグを使用してこれらの視覚要素を記述します。

認識されたMarkdownコンテンツを大規模言語モデル（LLM）に渡してさらに処理する場合、LLMはこれらの説明を通じて「ここに会社のロゴがあります」または「これは売上傾向の棒グラフです」と理解できると想像してみてください。これにより、自動化された文書要約、分析、レポート生成の新たな可能性が開かれます。

契約書の救世主：署名の自動検出

契約書や公式文書を処理する場合、署名は最も重要な要素の1つです。以前は、手動でスクリーンショットを撮ったり、メモを取ったりすることしかできませんでした。

現在、Nanonets-OCR-sはスキャンされた文書内の署名を自動的に見つけ、<signature>ブロックに分離できます。これにより、文書のデジタル化プロセスがより完全になるだけでなく、その後のアーカイブや検証作業も容易になります。

重要な情報を見逃さない：透かしもキャプチャ可能

多くの公式文書や下書きには、「機密」、「下書き」など、そのステータスや出典を示すために透かしが入れられています。この情報は文書の本体ではありませんが、非常に重要です。

Nanonets-OCR-sは、これらの透かしテキストを正確に抽出し、<watermark>タグに保存できます。これは、文書の追跡可能性と完全性を確保し、透かしを無視することによる誤解を避けるのに非常に役立ちます。

アンケートとフォームの処理が簡単に！スマートチェックボックス認識

これは些細なことに聞こえるかもしれませんが、大量のアンケート、申込書、またはチェックリストを処理する必要がある人にとっては、まさに天の恵みです。Nanonets-OCR-sは、文書内のチェックボックスとラジオボタンを認識し、次のような標準のUnicode記号に変換できます。

チェック済み：☑
バツ印：☒
未チェック：☐

これにより、後続のアプリケーション（下流のデータ分析ツールなど）がこれらのオプションを非常に確実に解析できるようになり、認識エラーや書式の乱れを心配する必要がなくなります。

最も厄介な表？完璧に復元できます

表の処理は、OCRにとって間違いなく究極の課題です。複数行および複数列にまたがる複雑な表は、従来のOCRツールを完全にクラッシュさせ、判読不能なテキストの山を出力することがよくあります。

Nanonets-OCR-sは、この点に多大な労力を費やしました。構造的に複雑な表を処理し、行と列の構造を完全に保持し、MarkdownとHTMLの両方の形式を同時に出力できます。メモに表示する場合でも、Webページに直接公開する場合でも、簡単に対応できます。

試してみませんか？今すぐお試しください！

Nanonets-OCR-sは単なるツールではなく、既存の文書自動化ワークフローにシームレスに統合できる強力なビルディングブロックのようなものです。そして何よりも、完全にオープンソースです！

ぜひご自身でその魅力をご体験ください。

Hugging Faceモデルページ： こちらでモデルを直接探索
公式完全発表： より詳細な技術的詳細を読む
Colabインスタントエクスペリエンス： ColabでDocextを使って実際に試してみる

よくある質問（FAQ）

Q1：Nanonets-OCR-sと他のOCRツールの違いは何ですか？

最大の違いは「構造理解」です。従来のOCRは「文字」の認識に重点を置いていますが、Nanonets-OCR-sは段落、見出し、表、数式、署名など、文書の「全体構造」の理解に重点を置いています。これにより、出力されるMarkdown形式は読みやすいだけでなく、後続の自動処理に直接使用できるため、従来のツールよりもはるかに実用的です。

Q2：このモデルは無料ですか？

はい、Nanonets-OCR-sはオープンソースモデルです。Hugging Faceで無料でダウンロードして使用でき、オープンソースライセンス契約に従って独自のプロジェクトに統合できます。

Q3：「軽量（3B）」とはどういう意味ですか？私にとってどんなメリットがありますか？

「3B」は、モデルが30億個のパラメータを持つことを意味します。今日の数兆、さらには数百兆個のパラメータを持つ巨大なモデルの中で、3Bは比較的小規模です。これは、ハードウェア要件が低く、最高級の高価なハードウェアを必要とせずに、パソコンや標準的なサーバーで簡単に展開して実行できることを意味します。

Q4：私は開発者ではありませんが、それでも使用できますか？

モデル自体を展開するにはある程度の技術的知識が必要ですが、公式が提供するColabノートブックを通じてその機能を簡単に体験できます。文書画像をアップロードするだけで、変換されたMarkdownの結果が表示され、非常に直感的です。

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

Recommended for You

バ …

tool

バイドゥ Unlimited-OCR 徹底解説：定数KVキャッシュ、R-SWA、および32K長文OCRのデプロイ実戦

タイトル：断片化されたスキャンと決別：バイドゥUnlimited-OCRの定数KVキャッシュとデプロイ実戦数十ページの長文PDFを処理するたびにサーバーメモリがクラッシュしていませんか？本記事では、バイドゥが2026年にリリースしたオープンソースプロジェクト「Unlimited-OCR」を徹底解説。R-SWA注意機構と定数KVキャッシュ技術について探求し、32Kトークンの解析タスクを達成するためのSGLang高並列デプロイガイドを提供します。長文ドキュメントの処理は、常に技術的な悪夢でした。50ページの財務諸表や複雑な技術マニュアルをモデルに入力しようとすると、サーバーメモリは確実にパンクしてしまいます。エンジニアはスクリプトを書いてドキュメントを無数の小さな断片に分割するしかありませんでした。その結果、表は途中で切断され、前後の論理的な関連性は消失し、最後には破碎した情報を再構築するためにさらに複雑なコードを書く羽目になります。正直なところ、このような妥協は非常にストレスフルなものです。しかし、この行き詰まった状況に転機が訪れました。バイドゥは2026年6月22日、Unlimited-OCRプロジェクトを正式に公開し、「長視野解析の単一処理」を打ち出しました。このオープンソースソリューションは、従来の光学的文字認識技術における最大のメモリ制限問題に正面から取り組んでいます。プロジェクトは公開直後からGitHubで550以上のスターと43のフォークを獲得しました。今日は、この技術の裏側にある論理を徹底的に解剖し、なぜこのモデルが一度に最大32,000トークンを処理できるのか、その魔法を明らかにします。メモリはもはやモンスターではない：定数KVキャッシュの驚異このプロジェクトに触れたばかりの開発者からよく聞かれるのは、「このモデルと従来の手法は何が違うのか？」という質問です。答えはメモリ管理メカニズムの中にあります。従来のモデルは、長文の情報を生成する際、入力長さに伴ってKVキャッシュ（Key-Value Cache）が線形、あるいは幾何級数的に増加します。これはまるで、長い数字の列を暗記しようとして、後半になると脳がオーバーヒートするようなものです。システムはクラッシュを防ぐために、強制的に並列数を下げたり、入力長さを制限したりするしかありません。 Unlimited-OCRは、「定数KVキャッシュ」という切り札を持ち出しました。極限まで最適化されたキャッシュ管理戦略により、デコード処理中のメモリ消費量をほぼ一定の範囲内に封じ込めることに成功しました。これは、10ページの契約書でも100ページの仕様書でも、単一リクエストで消費されるGPUメモリリソースが安定した状態を維持できることを意味します。突然の長文ドキュメントによる予期せぬサーバー停止はなくなり、システム安定性は飛躍的に向上しました。人間の読解をシミュレート：R-SWA参照スライディングウィンドウ機構超長文テキストの単一解析を達成するには、メモリを圧縮するだけでは不十分で、モデルは前後関係を「理解」しなければなりません。ここで言及しなければならないのが、R-SWA（参照型スライディングウィンドウ注意機構）という技術的ブレイクスルーです。人間が分厚い専門書をどのように読んでいるかを想像してみてください。50ページ目の専門用語を読んでいるとき、読者は通常、前の目次や用語解説のページを指で挟んでおき、詳細を確認しながら全体構造を参照します。R-SWAはまさに同じことを行っています。従来のスライディングウィンドウメカニズムは、計算リソースは節約できても「健忘症」になりがちで、後半を見ると前半を忘れてしまいます。R-SWAは、基準モデルのデコーダー内の伝統的な注意層を巧妙に置き換えます。スライディングウィンドウで局所的な詳細を処理する際、全体的な参照トークンを保持します。このメカニズムが介入することで、モデルは最後のページを解析する際にも、最初のページの脈絡をしっかりと掴んでおり、文脈断裂の痛点を完全に解決しました。巨人の肩に乗る：技術の継承と融合業界にはすでに優れた視覚解析モデルが多数存在します。研究開発チームは今回、車輪の再発明をするのではなく、最先端モデルの貴重な知見を融合させる道を選びました。このアーキテクチャの基本となるマルチモーダル理解能力は、Deepseek-OCRとDeepseek-OCR-2から多くの養分を吸収しており、特に複雑なレイアウト識別における精度の高さに貢献しています。同時に、チームは自社製PaddleOCRが工業現場で培ってきた安定性も借用しました。これらの強みを統合して初めて、32Kトークンを単一処理できるモンスター級のアプリケーションが誕生したのです。実戦演習：HuggingfaceからSGLangへの高並列デプロイ理論は十分です。次は実戦的な話に移りましょう。幸いなことに、この強力なモデルは非常にフレンドリーなMITオープンソースライセンスを採用しており、誰でも自由にダウンロードして商業プロジェクトに適用できます。もう一つ、開発者が最も気にする質問は「PDFファイルを直接読み込めるか？特別なハードウェアが必要か？」という点です。答えは明確です。プロジェクトはPyMuPDFパッケージをネイティブ統合してPDFから画像への変換フローを処理するだけでなく、非常に高いデプロイ柔軟性も備えています。十分なGPUメモリを備えたNVIDIA GPUを用意し、Python 3.12.3とCUDA 12.9環境を整えれば、Huggingface transformersインターフェースを通じて高速に推論を開始できます。本番環境に展開する場合、SGLangを使用してローカル推論サーバーを構築することを強くお勧めします。SGLangはOpenAIと完全に互換性のあるAPIエンドポイントを提供し、フロントエンドからストリームリクエストを送信するのを容易にします。環境の純粋性と一貫性を保つため、uvツールを使用して仮想環境を管理するのは賢明な選択です。基本的な設定ロジックは以下の通りです： # uvを使用して仮想環境を作成し、アクティベート uv venv source .venv/bin/activate # 特定バージョンのSGLangとPDF処理パッケージをインストール pip install ./wheel/sglang-*.whl pip install kernels==0.9.0 PyMuPDF # 高効率推論サーバーを起動し、ポート30000をオープン python -m sglang.launch_server --model-path ./path_to_model --port 30000 サーバーが立ち上がれば、作業効率は劇的に向上します。プロジェクトに組み込まれたinfer.pyという小さなツールは、膨大なファイルを処理する際の救世主です。これは自動的にサーバーを起動し、歴史的なPDFファイルや画像が入ったフォルダー全体に対して高並列リクエストを送信できます。2026年6月のサーバー室は暑いかもしれませんが、この清潔で機敏なバッチ処理アーキテクチャは、確実にサーバーの負荷を下げ、エンジニアのストレスも軽減してくれるはずです。 OCRの枠を超えた未来の可能性振り返ってみると、Unlimited-OCRがもたらした衝撃は、単に数十ページの財務諸表を解析したことだけにとどまりません。ここには非常に注目すべき点があります。 R-SWAは本質的に、汎用的な解析注意機構です。それが極めて低い計算コストで視覚ドキュメント内の長文の難問を解決できるのであれば、このロジックは当然他の分野にも適用可能です。例えば、このメカニズムを自動音声認識（ASR）タスクに拡張して数時間の会議録音を処理したり、機械翻訳に応用して、小説全体の翻訳において主要キャラクターの性格や語り口調を一貫して維持したりするようなことが考えられます。この技術の可能性は、まだ始まったばかりです。単一処理での超長文視野が当たり前になれば、開発者は毎日メモリオーバーフローエラーと格闘するのではなく、本来のビジネスロジックに集中できるようになります。お時間があれば、GitHubからソースコードを落として、50ページのドキュメントを一気に解析する流暢さをぜひ体験してみてください。これは、ドキュメント処理パイプラインに対するあなたの既存の認識を確実に変えるはずです。 Q&A Q：バイドゥUnlimited-OCRとは何ですか？また、従来のOCRのどのような課題を解決しますか？ A：Unlimited-OCRは、バイドゥが2026年6月22日にリリースしたオープンソースの光学的文字認識プロジェクトであり、「長視野解析の単一処理時代」を牽引するものです。従来のOCRモデルが数十ページのPDFなどの長文ドキュメントを処理する際にメモリが爆発してサーバーがクラッシュし、強制的にファイルを「断片化」せざるを得なかった課題を解決しました。Deepseek-OCRの能力をさらなる高みへ引き上げることを目指しています。 Q：Unlimited-OCRの核心技術は何ですか？なぜ32Kトークンを単一処理できるのですか？ A：その核心技術は「参照型スライディングウィンドウ注意機構（R-SWA）」と「定数KVキャッシュ（Constant KV Cache）」の導入にあります。これにより、デコード処理中のGPUメモリ消費量を定数範囲内にロックできます。これにより注意機構の計算コストを大幅に削減できるだけでなく、モデルはスライディングウィンドウで局所的な詳細を処理する際、全体的な参照トークンを保持でき、数十ページのドキュメントを単一解析しても脈絡が途切れることはありません。 Q：開発者がローカル環境でデプロイする場合、どのフレームワークが推奨されますか？ A：非常に高いデプロイ柔軟性を備えています。開発者はNVIDIA GPU環境下で、直接Huggingface transformersを通じて推論できます（Python 3.12.3とCUDA 12.9をサポート）。高並列の生産環境向けには、SGLangを使用してローカルサーバーを構築することを強く推奨します。OpenAIと完全に互換性のあるAPIエンドポイントを提供し、開発者は直接ストリームリクエストを送信できます。 Q：大量のPDFファイルを転写する必要がある場合、バッチ処理機能はありますか？ A：あります。環境構築段階で、PDFから画像への変換フローを処理するためにPyMuPDFパッケージをインストールすることを推奨します。また、プロジェクトには強力なinfer.pyというツールが含まれており、自動的にSGLangサーバーを起動できるだけでなく、画像やPDFのフォルダー全体に対して高並列バッチ推論リクエストを送信でき、大量ファイルの自動化処理フローを大幅に簡素化しました。

Jun 29, 2026 Read →

オ …

tool

オープンソース文書処理の新基準！NuExtract3 視覚言語モデルの実測とデプロイ解析

オープンソース文書処理の新基準：NuExtract3の「二刀流」と推論技術を解析煩雑なドキュメントの処理は、日常的な開発や企業アプリケーションにおいて、しばしば最も頭を悩ませる部分です。しわくちゃになった領収書の写真、独特なレイアウトのPDFファイル、あるいはページをまたぐ複雑なフォームなど、そこから重要な情報を正確に抽出するのは決して簡単なことではありません。誰もが一度はデータ抽出に苦労した経験があるでしょう。しかし今、非常に魅力的な新しい選択肢が登場しました。公式のNuExtract3リリースニュースによると、NuMindチームはQwen3.5-4Bアーキテクチャをベースにした40億パラメータの視覚言語モデル（VLM）をリリースしました。完全にオープンソースのApache-2.0ライセンスを採用し、企業が最も必要とする2つのコア機能を完璧に融合させています。もし開発チームが以前にNuMarkdownの優れたパフォーマンスを体験したことがあるなら、今回の全面的なアップグレード版には間違いなく目を奪われるはずです。構造化データとOCRの完璧な統合スムーズなデータ処理フローを構築するには、多くの場合、複数のツールを組み合わせる必要があります。伝統的に、現代のドキュメント処理は2つの世界に明確に分かれていました。一つは、ドキュメントをJSON形式に変換する「構造化データ抽出」ツールです。この技術は、氏名や金額などのフィールドをシステムに自動入力できるため、銀行や保険会社にとって特に重要であり、多大な人件費と時間を節約できます。もう一つは、コンテンツの抽出を担当する「OCR」技術です。その任務は、ドキュメント全体の内容とレイアウトをそのままMarkdown形式に変換することです。これは、社内文書をAIアシスタントに読み込ませたり、RAG（検索拡張生成）システムを構築したりするための重要な基盤となります。これら2つのタスクは、本質的にはどちらも「ドキュメントを理解する」ということを行っています。それなら、なぜ2つの独立したモデルとして実行する必要があるのでしょうか？これこそが、NuExtract3が解決しようとしている中心的な課題です。開発チームは、構造化抽出とOCRコンテンツ抽出を単一のモデルに統合することに成功しました。この革新的な設計により、企業のデプロイプロセスは大幅に簡素化されます。エンジニアは一つのシステムを維持するだけで、これら2つの異なるビジネスニーズを同時に満たすことができるのです。賢く、かつコスト効率の高い推論能力手書きの表やページをまたいで重なり合うセルを含むスキャン文書に直面すると、現在市場に出回っているパラメータの非常に大きな汎用モデルでさえ、困惑してしまうことがよくあります。このような複雑なレイアウトの罠を解決するために、NuExtract3は非常に実用的な「思考の言語化（thinking out loud）」推論機能を導入しました。最終的な回答を出す前に、モデルは注意深く観察を行います。ドキュメントの全体構造の分析から始め、具体的なフィールド名へと段階的に推論を進めることで、潜在的なレイアウトミスを予測し、回避します。人間が問題を解くようなこの論理こそが、正確にデータを抽出するための秘策なのです。しかし、ここには避けられない現実的な考慮事項があります。「思考」にはコストがかかるということです。一般的なモデルがこの種の推論機能を有効にすると、大量の「思考トークン」を生成しがちです。時には、思考トークンの数が最終的な出力結果の10倍以上になることもあり、計算コストと待機時間が急増してしまいます。予算とパフォーマンスを両立させるため、NuExtract3は学習段階において強化学習を通じてこの点を特別に最適化しました。思考トークンの生成量を、出力トークンと同程度の水準に抑えることができます。平均して約300トークン強で推論を完了できます。これにより、抽出の品質、計算コスト、および処理遅延の間で非常に完璧なバランスを見出しました。さらに素晴らしいことに、開発者はタスクのニーズに応じて、いつでも自由にこの推論機能をオンまたはオフに切り替えることができます。エンジニアの負担を軽減するカスタム指示とフィールド制御データを抽出するのは第一歩にすぎません。その後の果てしないデータクリーニングこそが、真に苦労する部分です。煩雑な後処理を大幅に減らすために、今回のアップグレードではデータ型の精密な制御が特に強化されました。わずか数種類の基礎設定しかなかった前世代と比較して、最新バージョンではサポートする構造化抽出フィールドの型が一気に20種類にまで拡張されました。ISO 8601形式の日付や時間、国コード、多国籍通貨、メールアドレス、電話番号はもちろん、ヨーロッパでよく使われるIBANやBIC形式まで、モデルに正確な出力を要求することができます。これは、多国籍間の契約書や財務諸表を扱う開発者にとって、間違いなく朗報です。以前は、モデルに正しくデータを抽出させるために、エンジニアは「テンプレートエンジニアリング」に知恵を絞らなければなりませんでした。モデルに理解させるために、「右下のカードアクセスコード」といった非常に長いフィールド名を書かなければならないこともありました。しかし、今やそのような苦労は不要です。新システムでは「フリーフォーム指示（Freeform instructions）」のサポートが正式に導入されました。ユーザーはテンプレートの中に、日常的な言葉による指示を直接加えることができます。例えば、モデルに「アクセスコードは6桁の数字で、通常はこのカードの右下に表示されます」と伝えるだけで、モデルはその指示を読み取り、正確にタスクを遂行します。このような人間の日常会話に近いコミュニケーション方法は直感的であるだけでなく、情報取得の精度も大幅に向上させます。ハードウェアのハードルは極めて低く、ローカルデプロイも容易 40億のパラメータと卓越した推論能力を備えていると聞くと、手元のハードウェアでは動かないのではないかと心配する人も多いでしょう。しかし、その心配は無用です。開発チームは、極めて強力な長文理解力を持たせるために、8枚の最高峰GPU「H100」を投入し、丸3日間かけてこのモデルを学習させましたが、エンドユーザー側のハードウェアのハードルは驚くほど低く抑えられています。実際、このモデルは約4GBのビデオメモリ（VRAM）を備えたデバイスがあればスムーズに動作します。これは、大多数の一般的なコンピュータ、さらにはノートパソコンでもローカルホスティングを容易に実現できることを意味します。煩雑なインストール手順を省いてすぐにその実力を確かめたい場合は、登録不要で無料のHugging Face体験スペースで試遊することができます。高度な統合ニーズを持つ企業向けには、公式から多様な重み量子化フォーマットが提供されています。一般的なSafetensorsやGGUFのほか、Appleシリコン向けに構築されたMLXフォーマットも用意されています。さらにGPTQ、W8A8、FP8、Q4、Q6などの多様なオプションもカバーされており、システム管理者は既存の環境に合わせて自由に選択できます。詳細なアーキテクチャ情報を知りたい場合は、Hugging Faceのモデルページや関連モデルコレクションをチェックすることを強くお勧めします。最後に、公式からの実務上のヒントを共有します。主要な推論エンジン（vLLM、SGLang、llama.cppなど）を使用してMarkdown OCRコンテンツ抽出を行う際は、「ページごと（page by page）」に処理することをお勧めします。ドキュメントを1ページずつモデルに読み込ませることで、並列計算の利点を最大限に活かせるだけでなく、処理速度と最終的な抽出結果もより美しくなります。ドキュメント情報の自動処理は、常に乱雑なレイアウトとの戦いでした。しかし、このようにコンパクトで思考が明晰、かつ構造化データとOCRを完璧に融合させたオープンソースの利器が登場したことで、複雑な情報抽出の難題を解決することは、今やずっと容易なことになったようです。よくある質問 (FAQ) Q1：NuExtract3は従来のドキュメント処理やOCRツールと何が違うのですか？ A：従来のドキュメント処理は通常、構造化データ抽出（JSON出力）とコンテンツ抽出（Markdown出力のOCR）という2つの独立したシステムに分かれていました。NuExtract3の最大の突破口は、これら2つのタスクを単一の40億パラメータモデルに完璧に統合した点にあります。これにより、企業は一つのシステムを維持するだけで異なるビジネスニーズを満たすことができ、デプロイプロセスを大幅に簡素化できます。 Q2：レイアウトが複雑な（複雑な表やページをまたぐような）ドキュメントに対して、NuExtract3のパフォーマンスはどうですか？ A：非常に優れています。「思考の言語化（thinking out loud）」推論機能を導入しているためです。回答を出す前に、モデルは全体構造から詳細までを推論し、潜在的なレイアウトの罠を予測します。さらに重要なのは、強化学習によって、平均して生成される思考トークン数を約338個に抑えており、抽出の品質、計算コスト、および処理遅延の間で極めて優れたバランスを実現している点です。 Q3：「フリーフォーム指示（Freeform instructions）」のメリットは何ですか？ A：以前はモデルを誘導するために、フィールド名の中にプロンプトを無理やり詰め込む必要がありました（例：「右下のカードアクセスコード」）。フリーフォーム指示があれば、テンプレートの中に日常語で「アクセスコードは6桁で、通常はカードの右下にあります」といった指示を直接追加できます。この方法はより直感的で、情報取得の精度を大幅に向上させます。 Q4：NuExtract3のローカルデプロイは、ハードウェアリソースを大量に消費しますか？ A：いいえ、全くそんなことはありません。学習には8枚のH100 GPUを使用しましたが、推論時のハードウェア要件は非常に親しみやすいものです。約4GBのビデオメモリ（VRAM）があればスムーズに動作します。公式からはSafetensors、GGUF、MLXのほか、GPTQ、W8A8、FP8などの各種量子化フォーマットが提供されており、ほとんどのデバイスでホスティングが可能です。 Q5：数ページにわたる長いドキュメントを処理する際の実務上のアドバイスはありますか？ A： Markdownコンテンツ抽出を行う際は、「ページごと（page by page）」に処理することを公式が推奨しています。長いドキュメントを分割して1ページずつモデルに読み込ませることで、最高の抽出結果が得られるだけでなく、並列計算をより効果的に利用して推論速度を向上させることができます。助。

May 26, 2026 Read →

0 …

tool

0.9B パラメータで SOTA に挑戦！智譜 GLM-OCR オープンソース化: ドキュメント解析を 10 倍高速化

智譜 AI (Zhipu AI) が GLM-OCR モデルをオープンソース化。わずか 0.9B のパラメータで、複雑な表や数式の認識において SOTA レベルに到達。GPT-5.2 や Gemini-3-Pro に肉薄する性能を持ちながら、推論コストは従来の OCR の 10 分の 1 です。この軽量ドキュメント解析ツールをデプロイし、Markdown と JSON の構造化出力を実現する方法を今すぐチェック！正直なところ、過去数年間の AI の発展は、ある種の神話を生み出しているようです。モデルのパラメータ数が大きければ大きいほど、すべての問題を解決できるというものです。各テクノロジー大手は、数百億、さらには数千億パラメータのマルチモーダル大規模モデルを競ってリリースしています。しかし、開発者や企業がこれらの巨大なモデルを実際に適用しようとすると、高額な計算コストと絶望的な遅延が最大の障害となることがよくあります。もっと軽量で賢い解決策はないのでしょうか？智譜 AI (Zhipu AI) が最新リリースした GLM-OCR は、まさにこの膠着状態を打破するものです。この軽量で専門的な OCR モデルは、パラメータ規模がわずか 0.9B です。よく考えてみてください。1B 未満のサイズというのは、取るに足らないもののように聞こえます。しかし、権威あるリーダーボード OmniDocBench V1.5 の最新データによると、この「小型」モデルは 94.62 スコアでトップに立ち、多くのコアシナリオにおいて、クローズドソースの大規模モデルである GPT-5.2 や Gemini-3-Pro さえも凌駕しています。これは単なる技術的なアップデートではなく、効率性の全面的な再構築です。小よく大を制す: 究極のコストパフォーマンスとスピードツールの実用性を測る上で、スピードは間違いなく絶対的な指標です。同じハードウェア環境とシングルコピーのテスト条件下で、GLM-OCR は驚くべきスループットを示しました。PDF ドキュメントを処理する場合、毎秒 1.86 ページ、単一の画像を処理する場合でも毎秒 0.67 枚の速度に達します。このようなパフォーマンスは、同種のモデルを大幅に上回っています。さらに重要なのは、デプロイの柔軟性です。パラメータ数がわずか 0.9B であるため、vLLM や SGLang などの主要なフレームワークでのデプロイを完全にサポートしています。これは、企業がローカルサーバーや、計算能力の限られたエッジデバイス上でもこのシステムを実行できることを意味します。智譜の公式技術ドキュメントによると、この軽量設計により推論遅延と計算オーバーヘッドが大幅に削減され、全体的な運用コストは従来の OCR ソリューションの約 10 分の 1 になります。

Feb 3, 2026 Read →

Nanonets-OCR-s：単なるOCRじゃない！オープンソースモデルで画像を完璧なMarkdownに簡単変換、LaTeXや表も対応

テキストだけでなく、数式も理解（LaTeX認識）

画像の中の画像？問題ありません、説明を書いてあげます

契約書の救世主：署名の自動検出

重要な情報を見逃さない：透かしもキャプチャ可能

アンケートとフォームの処理が簡単に！スマートチェックボックス認識

最も厄介な表？完璧に復元できます

試してみませんか？今すぐお試しください！

よくある質問（FAQ）

DMflow.chat

videoweaver.app

DMflow.chat

DMflow.chat

videoweaver.app

DMflow.chat

Recommended for You

バイドゥ Unlimited-OCR 徹底解説：定数KVキャッシュ、R-SWA、および32K長文OCRのデプロイ実戦

オープンソース文書処理の新基準！NuExtract3 視覚言語モデルの実測とデプロイ解析

0.9B パラメータで SOTA に挑戦！智譜 GLM-OCR オープンソース化: ドキュメント解析を 10 倍高速化

Leaving Website