Nanonets-OCR2徹底解説：単なるOCRではなく、新世代の文書インテリジェンスエンジン

できます。 GitHub：開発者の

tool

2025-10-15

Nanonetsの最新オープンソースOCR2モデルスイートを探る。LaTeX数式の自動変換やグラフのインテリジェントな記述から、手書き文書や複雑な表の正確な処理まで、Nanonets-OCR2は文書処理の限界を再定義しています。この記事では、その強力な機能、背後にある技術、そしてワークフローを完全に変える方法について詳しく解説します。

コンピュータが人間のように文書を「読める」ようになったらどうなるか、考えたことはありますか？単にテキストを認識するだけでなく、文書の構造、内容、さらにはグラフや署名の背後にある意味まで真に理解する。これはかつてSF小説のように聞こえましたが、今、Nanonetsから新たにリリースされ、オープンソース化されたOCR2シリーズのモデルが、それをすべて手の届くものにしています。

これはNanonets-OCR-sの単なる小さなアップグレードではなく、完全な革命です。Nanonets-OCR2は、複雑な画像文書を構造化されたMarkdownに変換するために設計された高度なモデルのセットであり、強力な視覚的質問応答（VQA）機能が追加されています。学術論文、財務報告書、手書きの契約書など、あらゆるものを瞬時に機械可読で処理しやすい形式に変換できると想像してみてください。

このモデルシリーズには、Nanonets-OCR2-Plus、Nanonets-OCR2-3B、Nanonets-OCR2-1.5B-expの3つのバージョンが含まれており、さまざまなシナリオのニーズに対応します。これらすべては、強力なQwen2-VLモデルに基づいて微調整された結果です。その中でも、3Bバージョンは、論文、財務報告書、契約書、医療記録、納税申告書、領収書、さらには多言語や手書きの文書を含む300万ページ以上の実世界の文書でトレーニングされており、複雑なシナリオでの驚くべき精度を保証しています。

「文書処理のアーティファクト」と称されるこのツールに、どのようなブラックテクノロジーが隠されているのか、一緒に見ていきましょう。

もはや単なるテキスト認識ではなく、真の「文書理解」

従来のOCRツールのタスクは単純です。画像からテキストを抽出することです。しかし、Nanonets-OCR2の野心は明らかにそれだけではありません。文書の「意味的理解」を追求し、文書内のさまざまな要素を識別してマーク付けし、読みやすくするだけでなく、大規模言語モデル（LLM）によるさらなる処理と分析を可能にします。

数式も怖くない：LaTeX方程式の自動変換

学界や工学分野の友人にとって、文書内の数式の扱いは常に頭痛の種でした。従来のOCRは、複雑な方程式に遭遇すると、しばしば文字化けした文字の束を出力します。

Nanonets-OCR2は、この問題点を完全に解決します。文書内の数式や公式を、正しくフォーマットされたLaTeX構文に自動的に変換できます。さらに賢いことに、インライン数式（ $...$ で囲む）と独立して表示される数式（$$...$$で囲む）を区別し、文書の学術的フォーマットを完全に復元できます。

写真に語らせる：スマートな画像記述

レポートや論文では、グラフが最も中心的な情報を伝えることがよくあります。Nanonets-OCR2は、ロゴ、グラフ、図など、文書内のさまざまな種類の画像をインテリジェントに記述し、記述内容を構造化された<img>タグに入れることができます。これは単なる単純なタグではなく、画像の内容、スタイル、文脈を詳細に説明し、大規模言語モデルもこの視覚情報を「理解」できるようにします。

契約書処理の切り札：署名と透かしの正確な抽出

法的または商業的な文書を処理する場合、署名と透かしの扱いは非常に重要です。Nanonets-OCR2は、文書内の署名を正確に識別し、他のテキストから分離して、<signature>タグに独立して出力できます。同様に、文書内の透かしテキストを検出して抽出し、<watermark>タグに入れて、重要な情報が見落とされないようにすることもできます。

フォーム処理の救世主：スマートなチェックボックス処理

アンケートやフォームを処理するとき、さまざまなスタイルのチェックボックスにめまいがしたことはありませんか？Nanonets-OCR2は、フォーム内のチェックボックスとラジオボタンを標準化されたUnicode記号（☐、☑、☒）に変換し、データ処理の一貫性と信頼性を保証します。

複雑な表からフローチャートまで、構造化データ抽出の究極の表示

単一の要素に加えて、Nanonets-OCR2は複雑な構造化データの処理においても同様に優れており、これが真に他と一線を画すところです。

複雑な表も簡単に処理

スキャンされた文書内の表の処理は、しばしば悪夢です。結合されたセルや複数レベルのヘッダーは、従来のツールを「狂わせる」ことがよくあります。Nanonets-OCR2は、文書から複雑な表を正確に抽出し、MarkdownとHTMLの両方の形式に変換できるため、データ分析やWebプレゼンテーションを簡単に処理できます。

フローチャートや組織図もデジタル化

さらに驚くべきことに、文書内のフローチャートや組織図を直接抽出し、Mermaidコードに変換することもできます。これは、これらの視覚化されたプロセスをデジタル化された文書にシームレスに埋め込み、真のダイナミクスとインタラクションを実現できることを意味します。

言語と筆記の壁を打ち破る

強力な文書処理ツールは、言語や筆記スタイルによって制限されてはなりません。

手書き文書はもはや判読不能ではない

Nanonets-OCR2は、多数の手書き文書でトレーニングされており、さまざまな言語やスタイルの手書き文字を効果的に処理できます。これは、多数の手書きの医療記録、メモ、または歴史的アーカイブを処理する必要がある機関にとって、間違いなく大きな恩恵です。

多言語の壁を越える

今日のグローバル化した世界では、多言語文書処理は基本的な要件です。Nanonets-OCR2は、英語、中国語、フランス語、スペイン語、日本語、韓国語、アラビア語など、複数の言語をサポートしており、真にグローバルなツールとなっています。

視覚的質問応答（VQA）：文書と直接対話する

これはおそらくNanonets-OCR2の最も未来的な機能です。情報を抽出するだけでなく、まるで実在の人物と話しているかのように、文書の内容について直接「質問」することもできます。

その視覚的質問応答（VQA）機能は、文書の文脈から答えを抽出することに焦点を当てるように特別にトレーニングされています。質問をすると、モデルは文書内で直接答えを検索して提供します。文書に関連情報がない場合は、「言及されていません」と明確に回答し、大規模言語モデルでよく見られる「幻覚」や当てずっぽうな推測を大幅に削減し、より信頼性の高い応答を提供します。

Nanonets-OCR2を始めるには？

Nanonetsチームは、この強力なツールを惜しみなくオープンソース化し、誰もが使用して貢献できるようにしています。次の方法で始めることができます。

ライブデモ： 公式のDocStrangeウェブサイトに直接文書をアップロードして、その強力な機能をすぐに体験してください。
公式ブログ： その背後にある技術的な詳細について詳しく知りたいですか？彼らの研究ブログを読むことができます。
GitHub： 開発者の方は、GitHubに直接アクセスしてソースコードを取得し、独自のアプリケーションに統合できます。
Hugging Faceモデル： Hugging Faceですべてのオープンソースモデルを見つけてダウンロードすることもできます。

結論：文書処理の次の章

Nanonets-OCR2の登場は、より強力なOCRツールを提供するだけでなく、新しい時代の到来を告げているようです。私たちが文書と真にインテリジェントに対話できる時代です。学術研究からビジネスアプリケーション、法的契約から医療記録まで、それは退屈で反復的な文書処理タスクから私たちを解放し、より価値のある創造的なタスクに集中できる大きな可能性を示しています。

この技術のオープンソース化は、より多くの開発者がこの分野に参入し、よりインテリジェントで自動化された未来を共同で創造することを奨励します。文書処理の次の章は、すでにNanonets-OCR2によって書かれています。

よくある質問（FAQ）

Q1：Nanonets-OCR2と一般的なOCRツールの違いは何ですか？

従来のOCRは、主に画像内のテキストをプレーンテキストに変換します。Nanonets-OCR2は、文書の全体的な構造と意味を理解し、LaTeX数式、表、署名、画像などの複雑な要素を識別してマーク付けし、構造化されたMarkdownに変換することで、他のプログラムや大規模言語モデルによる処理を容易にすることで、さらに一歩進んでいます。さらに、視覚的質問応答（VQA）機能も備えています。

Q2：Nanonets-OCR2はどの言語をサポートしていますか？

英語、中国語、フランス語、スペイン語、ポルトガル語、ドイツ語、イタリア語、ロシア語、日本語、韓国語、アラビア語など、複数の言語をサポートしています。

Q3：Nanonets-OCR2は手書き文書を処理できますか？

はい。このモデルは、多数の多言語手書き文書でトレーニングされており、手書き文字の認識に優れた効果を発揮します。

Q4：視覚的質問応答（VQA）機能とは何ですか？

これは、ユーザーが文書の内容について直接質問できる機能です。たとえば、財務報告書をアップロードして、「2023年の総収益はいくらでしたか？」と直接質問できます。モデルは文書をスキャンして直接回答を提供します。見つからない場合は、「言及されていません」と応答し、モデルが当てずっぽうに回答する問題を効果的に回避します。

Q5：Nanonets-OCR2は無料ですか？

はい、Nanonets-OCR2-3BやNanonets-OCR2-1.5B-expなどのNanonets-OCR2シリーズのモデルはHugging Faceでオープンソース化されており、開発者は無料でダウンロードして使用できます。

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

Recommended for You

バ …

tool

バイドゥ Unlimited-OCR 徹底解説：定数KVキャッシュ、R-SWA、および32K長文OCRのデプロイ実戦

タイトル：断片化されたスキャンと決別：バイドゥUnlimited-OCRの定数KVキャッシュとデプロイ実戦数十ページの長文PDFを処理するたびにサーバーメモリがクラッシュしていませんか？本記事では、バイドゥが2026年にリリースしたオープンソースプロジェクト「Unlimited-OCR」を徹底解説。R-SWA注意機構と定数KVキャッシュ技術について探求し、32Kトークンの解析タスクを達成するためのSGLang高並列デプロイガイドを提供します。長文ドキュメントの処理は、常に技術的な悪夢でした。50ページの財務諸表や複雑な技術マニュアルをモデルに入力しようとすると、サーバーメモリは確実にパンクしてしまいます。エンジニアはスクリプトを書いてドキュメントを無数の小さな断片に分割するしかありませんでした。その結果、表は途中で切断され、前後の論理的な関連性は消失し、最後には破碎した情報を再構築するためにさらに複雑なコードを書く羽目になります。正直なところ、このような妥協は非常にストレスフルなものです。しかし、この行き詰まった状況に転機が訪れました。バイドゥは2026年6月22日、Unlimited-OCRプロジェクトを正式に公開し、「長視野解析の単一処理」を打ち出しました。このオープンソースソリューションは、従来の光学的文字認識技術における最大のメモリ制限問題に正面から取り組んでいます。プロジェクトは公開直後からGitHubで550以上のスターと43のフォークを獲得しました。今日は、この技術の裏側にある論理を徹底的に解剖し、なぜこのモデルが一度に最大32,000トークンを処理できるのか、その魔法を明らかにします。メモリはもはやモンスターではない：定数KVキャッシュの驚異このプロジェクトに触れたばかりの開発者からよく聞かれるのは、「このモデルと従来の手法は何が違うのか？」という質問です。答えはメモリ管理メカニズムの中にあります。従来のモデルは、長文の情報を生成する際、入力長さに伴ってKVキャッシュ（Key-Value Cache）が線形、あるいは幾何級数的に増加します。これはまるで、長い数字の列を暗記しようとして、後半になると脳がオーバーヒートするようなものです。システムはクラッシュを防ぐために、強制的に並列数を下げたり、入力長さを制限したりするしかありません。 Unlimited-OCRは、「定数KVキャッシュ」という切り札を持ち出しました。極限まで最適化されたキャッシュ管理戦略により、デコード処理中のメモリ消費量をほぼ一定の範囲内に封じ込めることに成功しました。これは、10ページの契約書でも100ページの仕様書でも、単一リクエストで消費されるGPUメモリリソースが安定した状態を維持できることを意味します。突然の長文ドキュメントによる予期せぬサーバー停止はなくなり、システム安定性は飛躍的に向上しました。人間の読解をシミュレート：R-SWA参照スライディングウィンドウ機構超長文テキストの単一解析を達成するには、メモリを圧縮するだけでは不十分で、モデルは前後関係を「理解」しなければなりません。ここで言及しなければならないのが、R-SWA（参照型スライディングウィンドウ注意機構）という技術的ブレイクスルーです。人間が分厚い専門書をどのように読んでいるかを想像してみてください。50ページ目の専門用語を読んでいるとき、読者は通常、前の目次や用語解説のページを指で挟んでおき、詳細を確認しながら全体構造を参照します。R-SWAはまさに同じことを行っています。従来のスライディングウィンドウメカニズムは、計算リソースは節約できても「健忘症」になりがちで、後半を見ると前半を忘れてしまいます。R-SWAは、基準モデルのデコーダー内の伝統的な注意層を巧妙に置き換えます。スライディングウィンドウで局所的な詳細を処理する際、全体的な参照トークンを保持します。このメカニズムが介入することで、モデルは最後のページを解析する際にも、最初のページの脈絡をしっかりと掴んでおり、文脈断裂の痛点を完全に解決しました。巨人の肩に乗る：技術の継承と融合業界にはすでに優れた視覚解析モデルが多数存在します。研究開発チームは今回、車輪の再発明をするのではなく、最先端モデルの貴重な知見を融合させる道を選びました。このアーキテクチャの基本となるマルチモーダル理解能力は、Deepseek-OCRとDeepseek-OCR-2から多くの養分を吸収しており、特に複雑なレイアウト識別における精度の高さに貢献しています。同時に、チームは自社製PaddleOCRが工業現場で培ってきた安定性も借用しました。これらの強みを統合して初めて、32Kトークンを単一処理できるモンスター級のアプリケーションが誕生したのです。実戦演習：HuggingfaceからSGLangへの高並列デプロイ理論は十分です。次は実戦的な話に移りましょう。幸いなことに、この強力なモデルは非常にフレンドリーなMITオープンソースライセンスを採用しており、誰でも自由にダウンロードして商業プロジェクトに適用できます。もう一つ、開発者が最も気にする質問は「PDFファイルを直接読み込めるか？特別なハードウェアが必要か？」という点です。答えは明確です。プロジェクトはPyMuPDFパッケージをネイティブ統合してPDFから画像への変換フローを処理するだけでなく、非常に高いデプロイ柔軟性も備えています。十分なGPUメモリを備えたNVIDIA GPUを用意し、Python 3.12.3とCUDA 12.9環境を整えれば、Huggingface transformersインターフェースを通じて高速に推論を開始できます。本番環境に展開する場合、SGLangを使用してローカル推論サーバーを構築することを強くお勧めします。SGLangはOpenAIと完全に互換性のあるAPIエンドポイントを提供し、フロントエンドからストリームリクエストを送信するのを容易にします。環境の純粋性と一貫性を保つため、uvツールを使用して仮想環境を管理するのは賢明な選択です。基本的な設定ロジックは以下の通りです： # uvを使用して仮想環境を作成し、アクティベート uv venv source .venv/bin/activate # 特定バージョンのSGLangとPDF処理パッケージをインストール pip install ./wheel/sglang-*.whl pip install kernels==0.9.0 PyMuPDF # 高効率推論サーバーを起動し、ポート30000をオープン python -m sglang.launch_server --model-path ./path_to_model --port 30000 サーバーが立ち上がれば、作業効率は劇的に向上します。プロジェクトに組み込まれたinfer.pyという小さなツールは、膨大なファイルを処理する際の救世主です。これは自動的にサーバーを起動し、歴史的なPDFファイルや画像が入ったフォルダー全体に対して高並列リクエストを送信できます。2026年6月のサーバー室は暑いかもしれませんが、この清潔で機敏なバッチ処理アーキテクチャは、確実にサーバーの負荷を下げ、エンジニアのストレスも軽減してくれるはずです。 OCRの枠を超えた未来の可能性振り返ってみると、Unlimited-OCRがもたらした衝撃は、単に数十ページの財務諸表を解析したことだけにとどまりません。ここには非常に注目すべき点があります。 R-SWAは本質的に、汎用的な解析注意機構です。それが極めて低い計算コストで視覚ドキュメント内の長文の難問を解決できるのであれば、このロジックは当然他の分野にも適用可能です。例えば、このメカニズムを自動音声認識（ASR）タスクに拡張して数時間の会議録音を処理したり、機械翻訳に応用して、小説全体の翻訳において主要キャラクターの性格や語り口調を一貫して維持したりするようなことが考えられます。この技術の可能性は、まだ始まったばかりです。単一処理での超長文視野が当たり前になれば、開発者は毎日メモリオーバーフローエラーと格闘するのではなく、本来のビジネスロジックに集中できるようになります。お時間があれば、GitHubからソースコードを落として、50ページのドキュメントを一気に解析する流暢さをぜひ体験してみてください。これは、ドキュメント処理パイプラインに対するあなたの既存の認識を確実に変えるはずです。 Q&A Q：バイドゥUnlimited-OCRとは何ですか？また、従来のOCRのどのような課題を解決しますか？ A：Unlimited-OCRは、バイドゥが2026年6月22日にリリースしたオープンソースの光学的文字認識プロジェクトであり、「長視野解析の単一処理時代」を牽引するものです。従来のOCRモデルが数十ページのPDFなどの長文ドキュメントを処理する際にメモリが爆発してサーバーがクラッシュし、強制的にファイルを「断片化」せざるを得なかった課題を解決しました。Deepseek-OCRの能力をさらなる高みへ引き上げることを目指しています。 Q：Unlimited-OCRの核心技術は何ですか？なぜ32Kトークンを単一処理できるのですか？ A：その核心技術は「参照型スライディングウィンドウ注意機構（R-SWA）」と「定数KVキャッシュ（Constant KV Cache）」の導入にあります。これにより、デコード処理中のGPUメモリ消費量を定数範囲内にロックできます。これにより注意機構の計算コストを大幅に削減できるだけでなく、モデルはスライディングウィンドウで局所的な詳細を処理する際、全体的な参照トークンを保持でき、数十ページのドキュメントを単一解析しても脈絡が途切れることはありません。 Q：開発者がローカル環境でデプロイする場合、どのフレームワークが推奨されますか？ A：非常に高いデプロイ柔軟性を備えています。開発者はNVIDIA GPU環境下で、直接Huggingface transformersを通じて推論できます（Python 3.12.3とCUDA 12.9をサポート）。高並列の生産環境向けには、SGLangを使用してローカルサーバーを構築することを強く推奨します。OpenAIと完全に互換性のあるAPIエンドポイントを提供し、開発者は直接ストリームリクエストを送信できます。 Q：大量のPDFファイルを転写する必要がある場合、バッチ処理機能はありますか？ A：あります。環境構築段階で、PDFから画像への変換フローを処理するためにPyMuPDFパッケージをインストールすることを推奨します。また、プロジェクトには強力なinfer.pyというツールが含まれており、自動的にSGLangサーバーを起動できるだけでなく、画像やPDFのフォルダー全体に対して高並列バッチ推論リクエストを送信でき、大量ファイルの自動化処理フローを大幅に簡素化しました。

Jun 29, 2026 Read →

オ …

tool

オープンソース文書処理の新基準！NuExtract3 視覚言語モデルの実測とデプロイ解析

オープンソース文書処理の新基準：NuExtract3の「二刀流」と推論技術を解析煩雑なドキュメントの処理は、日常的な開発や企業アプリケーションにおいて、しばしば最も頭を悩ませる部分です。しわくちゃになった領収書の写真、独特なレイアウトのPDFファイル、あるいはページをまたぐ複雑なフォームなど、そこから重要な情報を正確に抽出するのは決して簡単なことではありません。誰もが一度はデータ抽出に苦労した経験があるでしょう。しかし今、非常に魅力的な新しい選択肢が登場しました。公式のNuExtract3リリースニュースによると、NuMindチームはQwen3.5-4Bアーキテクチャをベースにした40億パラメータの視覚言語モデル（VLM）をリリースしました。完全にオープンソースのApache-2.0ライセンスを採用し、企業が最も必要とする2つのコア機能を完璧に融合させています。もし開発チームが以前にNuMarkdownの優れたパフォーマンスを体験したことがあるなら、今回の全面的なアップグレード版には間違いなく目を奪われるはずです。構造化データとOCRの完璧な統合スムーズなデータ処理フローを構築するには、多くの場合、複数のツールを組み合わせる必要があります。伝統的に、現代のドキュメント処理は2つの世界に明確に分かれていました。一つは、ドキュメントをJSON形式に変換する「構造化データ抽出」ツールです。この技術は、氏名や金額などのフィールドをシステムに自動入力できるため、銀行や保険会社にとって特に重要であり、多大な人件費と時間を節約できます。もう一つは、コンテンツの抽出を担当する「OCR」技術です。その任務は、ドキュメント全体の内容とレイアウトをそのままMarkdown形式に変換することです。これは、社内文書をAIアシスタントに読み込ませたり、RAG（検索拡張生成）システムを構築したりするための重要な基盤となります。これら2つのタスクは、本質的にはどちらも「ドキュメントを理解する」ということを行っています。それなら、なぜ2つの独立したモデルとして実行する必要があるのでしょうか？これこそが、NuExtract3が解決しようとしている中心的な課題です。開発チームは、構造化抽出とOCRコンテンツ抽出を単一のモデルに統合することに成功しました。この革新的な設計により、企業のデプロイプロセスは大幅に簡素化されます。エンジニアは一つのシステムを維持するだけで、これら2つの異なるビジネスニーズを同時に満たすことができるのです。賢く、かつコスト効率の高い推論能力手書きの表やページをまたいで重なり合うセルを含むスキャン文書に直面すると、現在市場に出回っているパラメータの非常に大きな汎用モデルでさえ、困惑してしまうことがよくあります。このような複雑なレイアウトの罠を解決するために、NuExtract3は非常に実用的な「思考の言語化（thinking out loud）」推論機能を導入しました。最終的な回答を出す前に、モデルは注意深く観察を行います。ドキュメントの全体構造の分析から始め、具体的なフィールド名へと段階的に推論を進めることで、潜在的なレイアウトミスを予測し、回避します。人間が問題を解くようなこの論理こそが、正確にデータを抽出するための秘策なのです。しかし、ここには避けられない現実的な考慮事項があります。「思考」にはコストがかかるということです。一般的なモデルがこの種の推論機能を有効にすると、大量の「思考トークン」を生成しがちです。時には、思考トークンの数が最終的な出力結果の10倍以上になることもあり、計算コストと待機時間が急増してしまいます。予算とパフォーマンスを両立させるため、NuExtract3は学習段階において強化学習を通じてこの点を特別に最適化しました。思考トークンの生成量を、出力トークンと同程度の水準に抑えることができます。平均して約300トークン強で推論を完了できます。これにより、抽出の品質、計算コスト、および処理遅延の間で非常に完璧なバランスを見出しました。さらに素晴らしいことに、開発者はタスクのニーズに応じて、いつでも自由にこの推論機能をオンまたはオフに切り替えることができます。エンジニアの負担を軽減するカスタム指示とフィールド制御データを抽出するのは第一歩にすぎません。その後の果てしないデータクリーニングこそが、真に苦労する部分です。煩雑な後処理を大幅に減らすために、今回のアップグレードではデータ型の精密な制御が特に強化されました。わずか数種類の基礎設定しかなかった前世代と比較して、最新バージョンではサポートする構造化抽出フィールドの型が一気に20種類にまで拡張されました。ISO 8601形式の日付や時間、国コード、多国籍通貨、メールアドレス、電話番号はもちろん、ヨーロッパでよく使われるIBANやBIC形式まで、モデルに正確な出力を要求することができます。これは、多国籍間の契約書や財務諸表を扱う開発者にとって、間違いなく朗報です。以前は、モデルに正しくデータを抽出させるために、エンジニアは「テンプレートエンジニアリング」に知恵を絞らなければなりませんでした。モデルに理解させるために、「右下のカードアクセスコード」といった非常に長いフィールド名を書かなければならないこともありました。しかし、今やそのような苦労は不要です。新システムでは「フリーフォーム指示（Freeform instructions）」のサポートが正式に導入されました。ユーザーはテンプレートの中に、日常的な言葉による指示を直接加えることができます。例えば、モデルに「アクセスコードは6桁の数字で、通常はこのカードの右下に表示されます」と伝えるだけで、モデルはその指示を読み取り、正確にタスクを遂行します。このような人間の日常会話に近いコミュニケーション方法は直感的であるだけでなく、情報取得の精度も大幅に向上させます。ハードウェアのハードルは極めて低く、ローカルデプロイも容易 40億のパラメータと卓越した推論能力を備えていると聞くと、手元のハードウェアでは動かないのではないかと心配する人も多いでしょう。しかし、その心配は無用です。開発チームは、極めて強力な長文理解力を持たせるために、8枚の最高峰GPU「H100」を投入し、丸3日間かけてこのモデルを学習させましたが、エンドユーザー側のハードウェアのハードルは驚くほど低く抑えられています。実際、このモデルは約4GBのビデオメモリ（VRAM）を備えたデバイスがあればスムーズに動作します。これは、大多数の一般的なコンピュータ、さらにはノートパソコンでもローカルホスティングを容易に実現できることを意味します。煩雑なインストール手順を省いてすぐにその実力を確かめたい場合は、登録不要で無料のHugging Face体験スペースで試遊することができます。高度な統合ニーズを持つ企業向けには、公式から多様な重み量子化フォーマットが提供されています。一般的なSafetensorsやGGUFのほか、Appleシリコン向けに構築されたMLXフォーマットも用意されています。さらにGPTQ、W8A8、FP8、Q4、Q6などの多様なオプションもカバーされており、システム管理者は既存の環境に合わせて自由に選択できます。詳細なアーキテクチャ情報を知りたい場合は、Hugging Faceのモデルページや関連モデルコレクションをチェックすることを強くお勧めします。最後に、公式からの実務上のヒントを共有します。主要な推論エンジン（vLLM、SGLang、llama.cppなど）を使用してMarkdown OCRコンテンツ抽出を行う際は、「ページごと（page by page）」に処理することをお勧めします。ドキュメントを1ページずつモデルに読み込ませることで、並列計算の利点を最大限に活かせるだけでなく、処理速度と最終的な抽出結果もより美しくなります。ドキュメント情報の自動処理は、常に乱雑なレイアウトとの戦いでした。しかし、このようにコンパクトで思考が明晰、かつ構造化データとOCRを完璧に融合させたオープンソースの利器が登場したことで、複雑な情報抽出の難題を解決することは、今やずっと容易なことになったようです。よくある質問 (FAQ) Q1：NuExtract3は従来のドキュメント処理やOCRツールと何が違うのですか？ A：従来のドキュメント処理は通常、構造化データ抽出（JSON出力）とコンテンツ抽出（Markdown出力のOCR）という2つの独立したシステムに分かれていました。NuExtract3の最大の突破口は、これら2つのタスクを単一の40億パラメータモデルに完璧に統合した点にあります。これにより、企業は一つのシステムを維持するだけで異なるビジネスニーズを満たすことができ、デプロイプロセスを大幅に簡素化できます。 Q2：レイアウトが複雑な（複雑な表やページをまたぐような）ドキュメントに対して、NuExtract3のパフォーマンスはどうですか？ A：非常に優れています。「思考の言語化（thinking out loud）」推論機能を導入しているためです。回答を出す前に、モデルは全体構造から詳細までを推論し、潜在的なレイアウトの罠を予測します。さらに重要なのは、強化学習によって、平均して生成される思考トークン数を約338個に抑えており、抽出の品質、計算コスト、および処理遅延の間で極めて優れたバランスを実現している点です。 Q3：「フリーフォーム指示（Freeform instructions）」のメリットは何ですか？ A：以前はモデルを誘導するために、フィールド名の中にプロンプトを無理やり詰め込む必要がありました（例：「右下のカードアクセスコード」）。フリーフォーム指示があれば、テンプレートの中に日常語で「アクセスコードは6桁で、通常はカードの右下にあります」といった指示を直接追加できます。この方法はより直感的で、情報取得の精度を大幅に向上させます。 Q4：NuExtract3のローカルデプロイは、ハードウェアリソースを大量に消費しますか？ A：いいえ、全くそんなことはありません。学習には8枚のH100 GPUを使用しましたが、推論時のハードウェア要件は非常に親しみやすいものです。約4GBのビデオメモリ（VRAM）があればスムーズに動作します。公式からはSafetensors、GGUF、MLXのほか、GPTQ、W8A8、FP8などの各種量子化フォーマットが提供されており、ほとんどのデバイスでホスティングが可能です。 Q5：数ページにわたる長いドキュメントを処理する際の実務上のアドバイスはありますか？ A： Markdownコンテンツ抽出を行う際は、「ページごと（page by page）」に処理することを公式が推奨しています。長いドキュメントを分割して1ページずつモデルに読み込ませることで、最高の抽出結果が得られるだけでなく、並列計算をより効果的に利用して推論速度を向上させることができます。助。

May 26, 2026 Read →

0 …

tool

0.9B パラメータで SOTA に挑戦！智譜 GLM-OCR オープンソース化: ドキュメント解析を 10 倍高速化

智譜 AI (Zhipu AI) が GLM-OCR モデルをオープンソース化。わずか 0.9B のパラメータで、複雑な表や数式の認識において SOTA レベルに到達。GPT-5.2 や Gemini-3-Pro に肉薄する性能を持ちながら、推論コストは従来の OCR の 10 分の 1 です。この軽量ドキュメント解析ツールをデプロイし、Markdown と JSON の構造化出力を実現する方法を今すぐチェック！正直なところ、過去数年間の AI の発展は、ある種の神話を生み出しているようです。モデルのパラメータ数が大きければ大きいほど、すべての問題を解決できるというものです。各テクノロジー大手は、数百億、さらには数千億パラメータのマルチモーダル大規模モデルを競ってリリースしています。しかし、開発者や企業がこれらの巨大なモデルを実際に適用しようとすると、高額な計算コストと絶望的な遅延が最大の障害となることがよくあります。もっと軽量で賢い解決策はないのでしょうか？智譜 AI (Zhipu AI) が最新リリースした GLM-OCR は、まさにこの膠着状態を打破するものです。この軽量で専門的な OCR モデルは、パラメータ規模がわずか 0.9B です。よく考えてみてください。1B 未満のサイズというのは、取るに足らないもののように聞こえます。しかし、権威あるリーダーボード OmniDocBench V1.5 の最新データによると、この「小型」モデルは 94.62 スコアでトップに立ち、多くのコアシナリオにおいて、クローズドソースの大規模モデルである GPT-5.2 や Gemini-3-Pro さえも凌駕しています。これは単なる技術的なアップデートではなく、効率性の全面的な再構築です。小よく大を制す: 究極のコストパフォーマンスとスピードツールの実用性を測る上で、スピードは間違いなく絶対的な指標です。同じハードウェア環境とシングルコピーのテスト条件下で、GLM-OCR は驚くべきスループットを示しました。PDF ドキュメントを処理する場合、毎秒 1.86 ページ、単一の画像を処理する場合でも毎秒 0.67 枚の速度に達します。このようなパフォーマンスは、同種のモデルを大幅に上回っています。さらに重要なのは、デプロイの柔軟性です。パラメータ数がわずか 0.9B であるため、vLLM や SGLang などの主要なフレームワークでのデプロイを完全にサポートしています。これは、企業がローカルサーバーや、計算能力の限られたエッジデバイス上でもこのシステムを実行できることを意味します。智譜の公式技術ドキュメントによると、この軽量設計により推論遅延と計算オーバーヘッドが大幅に削減され、全体的な運用コストは従来の OCR ソリューションの約 10 分の 1 になります。

Feb 3, 2026 Read →

Nanonets-OCR2徹底解説：単なるOCRではなく、新世代の文書インテリジェンスエンジン

もはや単なるテキスト認識ではなく、真の「文書理解」

数式も怖くない：LaTeX方程式の自動変換

写真に語らせる：スマートな画像記述

契約書処理の切り札：署名と透かしの正確な抽出

フォーム処理の救世主：スマートなチェックボックス処理

複雑な表からフローチャートまで、構造化データ抽出の究極の表示

複雑な表も簡単に処理

フローチャートや組織図もデジタル化

言語と筆記の壁を打ち破る

手書き文書はもはや判読不能ではない

多言語の壁を越える

視覚的質問応答（VQA）：文書と直接対話する

Nanonets-OCR2を始めるには？

結論：文書処理の次の章

よくある質問（FAQ）

DMflow.chat

DMflow.chat

videoweaver.app

DMflow.chat

DMflow.chat

videoweaver.app

Recommended for You

バイドゥ Unlimited-OCR 徹底解説：定数KVキャッシュ、R-SWA、および32K長文OCRのデプロイ実戦

オープンソース文書処理の新基準！NuExtract3 視覚言語モデルの実測とデプロイ解析

0.9B パラメータで SOTA に挑戦！智譜 GLM-OCR オープンソース化: ドキュメント解析を 10 倍高速化

Leaving Website