tool

0.9B パラメータで SOTA に挑戦!智譜 GLM-OCR オープンソース化: ドキュメント解析を 10 倍高速化

February 3, 2026
Updated Feb 3
1 min read

智譜 AI (Zhipu AI) が GLM-OCR モデルをオープンソース化。わずか 0.9B のパラメータで、複雑な表や数式の認識において SOTA レベルに到達。GPT-5.2 や Gemini-3-Pro に肉薄する性能を持ちながら、推論コストは従来の OCR の 10 分の 1 です。この軽量ドキュメント解析ツールをデプロイし、Markdown と JSON の構造化出力を実現する方法を今すぐチェック!


正直なところ、過去数年間の AI の発展は、ある種の神話を生み出しているようです。モデルのパラメータ数が大きければ大きいほど、すべての問題を解決できるというものです。各テクノロジー大手は、数百億、さらには数千億パラメータのマルチモーダル大規模モデルを競ってリリースしています。しかし、開発者や企業がこれらの巨大なモデルを実際に適用しようとすると、高額な計算コストと絶望的な遅延が最大の障害となることがよくあります。

もっと軽量で賢い解決策はないのでしょうか?

智譜 AI (Zhipu AI) が最新リリースした GLM-OCR は、まさにこの膠着状態を打破するものです。この軽量で専門的な OCR モデルは、パラメータ規模がわずか 0.9B です。よく考えてみてください。1B 未満のサイズというのは、取るに足らないもののように聞こえます。しかし、権威あるリーダーボード OmniDocBench V1.5 の最新データによると、この「小型」モデルは 94.62 スコアでトップに立ち、多くのコアシナリオにおいて、クローズドソースの大規模モデルである GPT-5.2 や Gemini-3-Pro さえも凌駕しています。

これは単なる技術的なアップデートではなく、効率性の全面的な再構築です。

小よく大を制す: 究極のコストパフォーマンスとスピード

ツールの実用性を測る上で、スピードは間違いなく絶対的な指標です。同じハードウェア環境とシングルコピーのテスト条件下で、GLM-OCR は驚くべきスループットを示しました。PDF ドキュメントを処理する場合、毎秒 1.86 ページ、単一の画像を処理する場合でも毎秒 0.67 枚の速度に達します。このようなパフォーマンスは、同種のモデルを大幅に上回っています。

さらに重要なのは、デプロイの柔軟性です。パラメータ数がわずか 0.9B であるため、vLLM や SGLang などの主要なフレームワークでのデプロイを完全にサポートしています。これは、企業がローカルサーバーや、計算能力の限られたエッジデバイス上でもこのシステムを実行できることを意味します。智譜の公式技術ドキュメントによると、この軽量設計により推論遅延と計算オーバーヘッドが大幅に削減され、全体的な運用コストは従来の OCR ソリューションの約 10 分の 1 になります。

「厄介な」ドキュメントに特化、手書きの数式も見逃さない

従来の OCR ツールは、整った活字に対してはそこそこのパフォーマンスを発揮しますが、実際のビジネスシーンでよくある乱雑なレイアウトに直面すると、手も足も出ないことがよくあります。傾いたスキャン画像、印鑑だらけの請求書、あるいは手書きの数式などは、常にドキュメント解析の難所でした。

GLM-OCR は、これらの複雑なシナリオに対して特別な最適化を行っています。コードドキュメント、複雑な表、印鑑などの要素を含むテストにおいて、その認識精度は依然として優れています。最も頭を悩ませる数式認識を例にとると、UniMERNet ベンチマークテストにおいて、GLM-OCR は 96.5 という高スコアを記録し、GPT-5.2 の 90.5 すら上回りました。

学生が乱雑な微積分の数式で埋め尽くされたノートを撮影し、システムが数秒以内にそれを正確に認識してデジタルテキストに変換できると想像してみてください。これは、教育工学や研究支援の分野にとって、長年の課題を解決するものです。

面倒な後処理にさようなら: Markdown と JSON の構造化直接出力

開発者にとって、OCR でプレーンテキストを認識することは最初のステップにすぎません。散らばった文字を再配置し、構造を構築することこそが、本当に時間のかかる作業です。

ここに非常に実用的なハイライトがあります。GLM-OCR は、Markdown ドキュメントと画像リンクの直接エクスポートをサポートしています。これは、ドキュメントの元の見出し階層、段落、リストが完全に保持されることを意味します。さらに、強力な情報構造化抽出機能も備えており、事前に定義されたフォーマットに準拠した JSON データを返すことができます。

現在の大規模言語モデルアプリケーションの多くは、RAG (検索拡張生成) システムに依存しています。構造化された Markdown と JSON 出力があれば、これらのデータをベクトルデータベースにシームレスに接続でき、面倒なテキストクリーニングの手順を完全に省くことができます。ソースコードを研究したい技術者は、GLM-OCR の GitHub プロジェクトページ に直接アクセスして関連リソースを入手できます。

0.9B の背後に隠された技術コード

では、一体どのようなアーキテクチャが、この小さなモデルにこれほど強力な「視力」を与えているのでしょうか?

その答えは、自社開発の CogViT 視覚エンコーダーにあります。このアーキテクチャは、大規模な画像テキストデータの事前学習に基づいており、0.5B の言語デコーダーを組み合わせています。開発チームは、マルチトークン予測損失関数と全タスク強化学習戦略を巧みに導入しました。この設計によりモデルの汎化能力が向上し、レイアウトが極めて複雑なドキュメントでも正確に理解できるようになりました。

この技術はすでに完全にオープンソース化されています。興味のある開発者は、Hugging Face プラットフォーム でモデルの重みをダウンロードし、その背後にある技術的な魅力を実際に体験することができます。

多言語と超大容量ファイルのサポート: 実用性最大

多くの人が疑問に思うかもしれませんが、このモデルは中国語だけに最適化されているのでしょうか?答えはノーです。GLM-OCR は、中国語、英語、フランス語、スペイン語、ロシア語、ドイツ語、日本語、韓国語など、幅広い言語をサポートしており、多国籍ビジネスのシナリオでも余裕を持って対応できます。

入力制限に関しても、システムは非常に寛容です。単一の画像は最大 10 MB まで、PDF ファイルは最大 50 MB または 100 ページまでサポートしています。このスペックなら、ほとんどの財務報告書、目論見書、または大規模な契約書ドキュメントに対応するのに十分です。

API 呼び出し: 1 元 (約 20 円) で何ができるか?

最後に、誰もが気にする価格についてお話ししましょう。モデルを自分でデプロイしたくないユーザーのために、智譜は非常に競争力のある API サービスを提供しています。入力と出力の価格は同じで、わずか 0.2 人民元 / 百万トークンです。

これはどれくらい安いのでしょうか?換算すると、1 人民元で約 2000 枚の A4 サイズのスキャン画像、または 10 ページの単純なレイアウトの PDF を 200 部処理できます。このほぼ無料に近い価格戦略により、予算が限られている小規模なスタートアップ企業でも、ドキュメントのデジタル化を簡単に実現できます。

究極のコストパフォーマンスを追求する企業であれ、複雑な数式の正確な解析を必要とする研究者であれ、この「小型」と「高精度」を兼ね備えたモデルは、ツールボックスに入れておく価値があります。結局のところ、複雑な問題を解決するために必要なのは、軽量で賢い答えだけであることもあります。

シェアする:
Featured Partners

© 2026 Communeify. All rights reserved.