0.9B パラメータで SOTA に挑戦！智譜 GLM-OCR オープンソース化: ドキュメント解析を 10 倍高速化

智譜 AI (Zhipu AI) が GLM-OCR モデルをオープンソース化。わずか 0.9B のパラメータで、複雑な表や数式の認識において SOTA レベルに到達。GPT-5.2 や Gemini-3-Pro に肉薄する性能を持ちながら、推論コストは従来の OCR の 10 分の 1 です。この軽量ドキュメント解析ツールをデプロイし、Markdown と JSON の構造化出力を実現する方法を今すぐチェック！

正直なところ、過去数年間の AI の発展は、ある種の神話を生み出しているようです。モデルのパラメータ数が大きければ大きいほど、すべての問題を解決できるというものです。各テクノロジー大手は、数百億、さらには数千億パラメータのマルチモーダル大規模モデルを競ってリリースしています。しかし、開発者や企業がこれらの巨大なモデルを実際に適用しようとすると、高額な計算コストと絶望的な遅延が最大の障害となることがよくあります。

もっと軽量で賢い解決策はないのでしょうか？

智譜 AI (Zhipu AI) が最新リリースした GLM-OCR は、まさにこの膠着状態を打破するものです。この軽量で専門的な OCR モデルは、パラメータ規模がわずか 0.9B です。よく考えてみてください。1B 未満のサイズというのは、取るに足らないもののように聞こえます。しかし、権威あるリーダーボード OmniDocBench V1.5 の最新データによると、この「小型」モデルは 94.62 スコアでトップに立ち、多くのコアシナリオにおいて、クローズドソースの大規模モデルである GPT-5.2 や Gemini-3-Pro さえも凌駕しています。

これは単なる技術的なアップデートではなく、効率性の全面的な再構築です。

小よく大を制す: 究極のコストパフォーマンスとスピード

ツールの実用性を測る上で、スピードは間違いなく絶対的な指標です。同じハードウェア環境とシングルコピーのテスト条件下で、GLM-OCR は驚くべきスループットを示しました。PDF ドキュメントを処理する場合、毎秒 1.86 ページ、単一の画像を処理する場合でも毎秒 0.67 枚の速度に達します。このようなパフォーマンスは、同種のモデルを大幅に上回っています。

さらに重要なのは、デプロイの柔軟性です。パラメータ数がわずか 0.9B であるため、vLLM や SGLang などの主要なフレームワークでのデプロイを完全にサポートしています。これは、企業がローカルサーバーや、計算能力の限られたエッジデバイス上でもこのシステムを実行できることを意味します。智譜の公式技術ドキュメントによると、この軽量設計により推論遅延と計算オーバーヘッドが大幅に削減され、全体的な運用コストは従来の OCR ソリューションの約 10 分の 1 になります。

「厄介な」ドキュメントに特化、手書きの数式も見逃さない

従来の OCR ツールは、整った活字に対してはそこそこのパフォーマンスを発揮しますが、実際のビジネスシーンでよくある乱雑なレイアウトに直面すると、手も足も出ないことがよくあります。傾いたスキャン画像、印鑑だらけの請求書、あるいは手書きの数式などは、常にドキュメント解析の難所でした。

GLM-OCR は、これらの複雑なシナリオに対して特別な最適化を行っています。コードドキュメント、複雑な表、印鑑などの要素を含むテストにおいて、その認識精度は依然として優れています。最も頭を悩ませる数式認識を例にとると、UniMERNet ベンチマークテストにおいて、GLM-OCR は 96.5 という高スコアを記録し、GPT-5.2 の 90.5 すら上回りました。

学生が乱雑な微積分の数式で埋め尽くされたノートを撮影し、システムが数秒以内にそれを正確に認識してデジタルテキストに変換できると想像してみてください。これは、教育工学や研究支援の分野にとって、長年の課題を解決するものです。

面倒な後処理にさようなら: Markdown と JSON の構造化直接出力

開発者にとって、OCR でプレーンテキストを認識することは最初のステップにすぎません。散らばった文字を再配置し、構造を構築することこそが、本当に時間のかかる作業です。

ここに非常に実用的なハイライトがあります。GLM-OCR は、Markdown ドキュメントと画像リンクの直接エクスポートをサポートしています。これは、ドキュメントの元の見出し階層、段落、リストが完全に保持されることを意味します。さらに、強力な情報構造化抽出機能も備えており、事前に定義されたフォーマットに準拠した JSON データを返すことができます。

現在の大規模言語モデルアプリケーションの多くは、RAG (検索拡張生成) システムに依存しています。構造化された Markdown と JSON 出力があれば、これらのデータをベクトルデータベースにシームレスに接続でき、面倒なテキストクリーニングの手順を完全に省くことができます。ソースコードを研究したい技術者は、GLM-OCR の GitHub プロジェクトページに直接アクセスして関連リソースを入手できます。

0.9B の背後に隠された技術コード

では、一体どのようなアーキテクチャが、この小さなモデルにこれほど強力な「視力」を与えているのでしょうか？

その答えは、自社開発の CogViT 視覚エンコーダーにあります。このアーキテクチャは、大規模な画像テキストデータの事前学習に基づいており、0.5B の言語デコーダーを組み合わせています。開発チームは、マルチトークン予測損失関数と全タスク強化学習戦略を巧みに導入しました。この設計によりモデルの汎化能力が向上し、レイアウトが極めて複雑なドキュメントでも正確に理解できるようになりました。

この技術はすでに完全にオープンソース化されています。興味のある開発者は、Hugging Face プラットフォームでモデルの重みをダウンロードし、その背後にある技術的な魅力を実際に体験することができます。

多言語と超大容量ファイルのサポート: 実用性最大

多くの人が疑問に思うかもしれませんが、このモデルは中国語だけに最適化されているのでしょうか？答えはノーです。GLM-OCR は、中国語、英語、フランス語、スペイン語、ロシア語、ドイツ語、日本語、韓国語など、幅広い言語をサポートしており、多国籍ビジネスのシナリオでも余裕を持って対応できます。

入力制限に関しても、システムは非常に寛容です。単一の画像は最大 10 MB まで、PDF ファイルは最大 50 MB または 100 ページまでサポートしています。このスペックなら、ほとんどの財務報告書、目論見書、または大規模な契約書ドキュメントに対応するのに十分です。

API 呼び出し: 1 元 (約 20 円) で何ができるか？

最後に、誰もが気にする価格についてお話ししましょう。モデルを自分でデプロイしたくないユーザーのために、智譜は非常に競争力のある API サービスを提供しています。入力と出力の価格は同じで、わずか 0.2 人民元 / 百万トークンです。

これはどれくらい安いのでしょうか？換算すると、1 人民元で約 2000 枚の A4 サイズのスキャン画像、または 10 ページの単純なレイアウトの PDF を 200 部処理できます。このほぼ無料に近い価格戦略により、予算が限られている小規模なスタートアップ企業でも、ドキュメントのデジタル化を簡単に実現できます。

究極のコストパフォーマンスを追求する企業であれ、複雑な数式の正確な解析を必要とする研究者であれ、この「小型」と「高精度」を兼ね備えたモデルは、ツールボックスに入れておく価値があります。結局のところ、複雑な問題を解決するために必要なのは、軽量で賢い答えだけであることもあります。

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

Recommended for You

D …

tool

DeepSeek-OCR 2登場：機械がついに人間のように「拾い読み」する視覚ロジックを習得

DeepSeekチームは最近、オープンソースコミュニティに再び衝撃を与えました。今回彼らがもたらした DeepSeek-OCR 2 は、単にOCR（光学文字認識）の精度を数パーセント向上させただけではありません。このモデルは、長年見過ごされてきた、しかし極めて重要な核心的問題に触れています。それは、機械が画像を見る方法は、実はこれまでずっと間違っていたということです。既存の視覚モデルを注意深く観察すると、それらにはある「悪い癖」があることに気づくでしょう。画像の内容が何であれ、それらは常に左上隅から右下へと機械的にスキャン（ラスタースキャン）します。しかし、これは本当に正しい読み方でしょうか？新聞を読んだり、複雑な図表を見たり、ウェブページを閲覧したりするときの目の動きを考えてみてください。あなたの目は、見出し、欄、画像の論理的関係に従って「ジャンプ」しながら動いています。これこそが人間の読書の直感です。 DeepSeek-OCR 2の核心的なブレークスルーは、この「視覚的因果フロー（Visual Causal Flow）」を機械に教え込もうとした点にあります。なぜ従来の「スキャン式」読書は時代遅れなのか？これは非常に興味深い現象です。現在の視覚言語モデル（VLMs）の多くは、2D画像を無理やり1Dのシーケンスに平坦化しており、その順序は固定されています。単純な画像であればこの方法で問題ありませんが、多段組みの学術論文、ネストされた表、あるいはテキストと画像が入り混じった雑誌など、複雑なドキュメントレイアウトに遭遇すると、モデルは「混乱」してしまいます。なぜなら、空間的に隣接していることが、意味的につながっていることを表すとは限らないからです。 DeepSeekの研究者たちは、この問題を解決するには、単にパラメータを積み上げるだけでは不十分だと気づきました。彼らは全く新しい概念を提唱しました。それはエンコーダ（Encoder）に推論能力を持たせるということです。これこそがDeepSeek-OCR 2の秘密兵器 —— DeepEncoder V2 です。それはもはや受動的にピクセルを受け取るだけのカメラではなく、読む前にまず「思考を整理する」ことを知っている前頭葉のようなものです。 DeepEncoder V2：LLMの脳で世界を見るこの部分の技術的な詳細は非常に興味深いです。通常、視覚モデルのエンコーダにはCLIPのようなアーキテクチャが使用されます。しかし、DeepSeekは今回大胆な試みを行いました。彼らはエンコーダを言語モデル（LLM）に置き換えたのです。具体的には、彼らは Qwen2-0.5B を視覚エンコーダのベースとして使用しました。見間違いではありません。視覚信号を処理するために言語モデルを使用しているのです。ここにあるロジックは、言語モデルは生まれつきシーケンスと因果関係を処理するのが得意だということです。この「ハイブリッド」アーキテクチャはどのように機能するのか？ Vision Tokenizer：まず、画像は軽量なTokenizer（SAM-baseベース）を通過します。このステップは主に情報を圧縮し、膨大なピクセルデータをモデルが消化できる小さな塊にするためのものです。視覚的因果フロー（Visual Causal Flow）：これが最も素晴らしい部分です。モデルは一連の「学習可能なクエリ（Learnable Queries）」を導入しました。これらのクエリトークンは位置によって機械的に配置されるのではなく、因果的注意機構（Causal Attention Mechanism）を採用しています。つまり、各クエリトークンは情報を読み取る際に、以前の文脈を参照し、論理的に次に来るべき内容を画像の中から能動的に「掴み」に行きます。簡単に言えば、このプロセスはモデルがこう言っているようなものです。「よし、タイトルは読み終わった。論理的に考えて、次は隣にある関係のない広告画像ではなく、最初の段落のテキストを探すべきだ。」パフォーマンスとコストの究極のバランス：Geminiへの挑戦 AI分野において、強力なパフォーマンスは通常、高価な計算能力を意味します。しかし、DeepSeek-OCR 2はこの点において優れた制御力を発揮しています。この新しいアーキテクチャを通じて、DeepSeek-OCR 2は極めて高い圧縮率を維持しながら、理解能力を向上させることができました。論文では非常に具体的な数字が挙げられています。LLMに入力される視覚トークンの数は 256から1120 の間に制御されています。なぜ1120なのか？これはランダムに選ばれた数字ではありません。これはまさにGoogleの Gemini-3 Pro モデルの最大視覚トークン予算です。DeepSeekは明らかに準備万端であり、同じリソース制限下で、オープンソースアーキテクチャがトップクラスのクローズドソースモデルの効率に匹敵、あるいは凌駕できることを証明しようとしています。ドキュメント解析能力を専門にテストするベンチマーク OmniDocBench v1.5 において、DeepSeek-OCR 2は 91.09% という高スコアを記録し、前世代と比較して 3.73% 向上しました。さらに重要なのは、「読み取り順序」の指標においてエラー率が大幅に低下したことです。これは、「視覚的因果フロー」が単なる理論上の革新ではなく、実際のアプリケーションにおいてもモデルにスムーズに「読ませる」ことを可能にしていることを直接証明しています。実際の応用：実験室から本番環境へ多くの論文は発表後に棚上げされてしまいますが、DeepSeek-OCR 2はすでに実戦の洗礼を受けた製品です。 DeepSeekチームによると、このモデルはすでに彼らの内部生産プロセスに適用されており、大量のPDFトレーニングデータの処理やオンラインOCRサービスで使用されています。これは開発者にとって朗報です。なぜなら、モデルの安定性と実用性が、厳選されたいくつかのデモケースでのベンチマークだけでなく、大規模なデータによって検証済みであることを意味するからです。このモデルを自分で体験したい場合、DeepSeekは非常に太っ腹なことに、コードと重みをすべてオープンソース化しています。GitHub で完全なプロジェクトを見つけるか、Hugging Face でモデルの重みを直接ダウンロードできます。

Jan 28, 2026 Read →

T …

tool

TencentがHunyuanOCRモデルをオープンソース化：1BパラメータがOCR認識の限界に挑む

Tencentが新たに発表したHunyuanOCRは、わずか10億（1B）パラメータの軽量設計で、OmniDocBenchなどの複数の権威あるテストにおいてGPT-4oやGeminiを打ち負かしました。この記事では、このネイティブマルチモーダルモデルのアーキテクチャ上の利点、実測データパフォーマンス、およびドキュメント解析、シーンテキスト認識、翻訳における応用の可能性を深く分析します。正直なところ、OCR（光学文字認識）技術と聞いて、ほとんどの人が思い浮かべるのは、あの不格好で時々誤動作する古いスキャンソフトのことではないでしょうか。あるいは、画像を直接ChatGPTに投げて、あのぼやけたレシートを理解してくれることを期待するかもしれません。しかし、もしわずか10億パラメータの「小さなモデル」が、画像を見て文字を認識することにおいて、あの巨大な汎用モデルよりも正確だと言ったら、信じられますか？これこそが、Tencent Hunyuanチームが最近もたらした驚き、HunyuanOCR です。これは単なる新しいオープンソースプロジェクトではありません。これは一つのトレンドを示しています。特定の分野では、精巧な専用モデルがしばしば驚くべき爆発力を発揮できるということです。何千億ものパラメータを持つ計算モンスターは必要ありません。アーキテクチャが正しければ、小さなモデルでも十分に戦えるのです。軽量化と高性能のバランスの芸術私たちは「大きければ大きいほど良い」という思考パターンに慣れています。しかしAIの世界では、効率が規模よりも重要な場合があります。 HunyuanOCRの中核的なハイライトは、ネイティブマルチモーダルアーキテクチャ（Native Multimodal Architecture）を採用している点にあります。少し舌を噛みそうな名前でしょうか？簡単に言えば、これは視覚モデルと言語モデルを無理やり組み合わせたものではなく、最初から「画像とテキストを理解する」ために生まれたものなのです。なぜ1Bパラメータが重要なのか？ HunyuanOCRはわずか1B（10億）パラメータしかありません。開発者や企業にとって、これは展開コストが極めて低いことを意味します。高価なH100サーバークラスターを借りる必要はなく、一部のエッジデバイス上で実行できる可能性さえあります。サイズは小さいですが、エンドツーエンド（End-to-End）のエキスパートレベルのモデルです。従来のOCRプロセスは「まず文字の位置を検出し、次に切り取り、最後に認識する」というものでしたが、この中間のステップが一つでも間違えば、結果は歪んでしまいます。一方、HunyuanOCRは画像を見て直接話すため、複雑なレイアウトを処理する際により手際よくこなせます。データは語る：ベンチマークにおけるHunyuanOCRの支配力口で言うのは簡単です。公式に公開されたOmniDocBenchの評価データを見てみましょう。このチャートは多くの興味深い詳細を明らかにしています。ドキュメント解析能力 (Parsing) ドキュメント解析に特化したテストであるOmniDocBenchにおいて、HunyuanOCRは 94.10 という高スコアを記録し、堂々の1位を獲得しました。後ろに並んでいる名前に注目してください： PaddleOCR-VL：92.86 GPT-4o：75.02 Marker-1.8.2：71.30 これは非常に興味深い現象です。GPT-4oは現在地球上で最強の汎用モデルですが、レイアウトを極めて正確に復元し、微細な文字を認識する必要があるこのような専門的なタスクでは、これに特化したHunyuanOCRに敗れました。これは、博識な教授にスペリングコンテストに参加してもらうようなもので、スペリングを専門に訓練した選手に勝てるとは限らないのと同じです。複雑なシーンの文字認識 (Spotting) Multi-Scenes（多シーン）テストでは、「野生の」画像、つまり道路標識、看板、混乱した背景の下にある文字が課題となります。 HunyuanOCRは 70.92 のNEDスコア（Normalized Edit Distance、スコアが高いほど良い）を達成しました。対照的に、Baidu-OCRはわずか61.90、PaddleOCRは53.38でした。これは、自然なシーン、光の変化、またはぼやけた文字を処理する際に、HunyuanOCRがより強力な堅牢性を持っていることを示しています。翻訳とQAのパフォーマンス DoTA（翻訳）およびOCRBench（QA）テストでも、HunyuanOCRは同様に優れたパフォーマンスを発揮しました。特に翻訳タスクでは、GoogleのGemini-2.5-Proと互角に渡り合い、いくつかの指標ではQwen3-VLシリーズを上回ることさえありました。これは、単に「文字を認識する」だけでなく、言語間の対応関係も理解できることを意味しています。現実世界の悩みを解決：多言語と複雑なレイアウトこんな状況に遭遇したことはありませんか？表、サイドバーの注釈、さらには手書きのメモが含まれたPDFをスキャンした結果、変換されたWordファイルがめちゃくちゃになってしまったこと。 HunyuanOCRはまさにこの悩みを解決しようとしています。多言語ドキュメント解析公式の説明によると、このモデルは多言語解析において「達人級」の実力を発揮します。中国語と英語が混在する技術文書であれ、特殊記号を含む学術論文であれ、元の構造を比較的良好に復元できます。これは、ドキュメントのデジタル化（Digitization）を行う必要がある企業にとって、大きな福音です。動画字幕とオープンフィールド抽出静止画に加えて、HunyuanOCRは動画字幕の抽出にも最適化されています。これはショート動画が流行している現在、非常に実用的です。手動で書き起こすことなく、画面から字幕を直接正確に取得できると想像してみてください。これでどれだけのポストプロダクション時間を節約できるでしょうか？さらに、オープンフィールド（Open-field）での情報抽出能力により、自動運転の道路標識認識やロボットの視覚ナビゲーションに応用することができます。開発者リソースとオープンソース精神 Tencentが今回HunyuanOCRをオープンソース化したことは、間違いなく開発者コミュニティへの大きな貢献です。 HuggingFace モデルリポジトリ：完全なモデルウェイトのダウンロードを提供しています。 GitHub コードリポジトリ：詳細な使用説明とファインチューニング（Fine-tuning）ガイドが含まれています。これは、あなたがAIエンジニアであれば、ゼロからモデルをトレーニングすることなく、このモデルを直接アプリケーションに統合して、独自のドキュメントスキャナーや翻訳ツールを作成できることを意味します。関連リンク： HuggingFace ダウンロードページ GitHub プロジェクトアドレスよくある質問 (FAQ) 皆さんがHunyuanOCRをより早く理解できるように、開発者コミュニティが最も関心を寄せている質問をいくつかまとめました。 1. HunyuanOCRのハードウェア要件は高いですか？モデルパラメータはわずか1B（10億）であるため、ハードウェア要件は比較的低いです。70Bのような大規模モデルを実行するのにハイエンドGPUが必要なのと比較して、HunyuanOCRは消費者向けグラフィックカードや最適化されたエッジデバイス上でも実行できるため、導入の敷居が大幅に下がります。 2. どの言語をサポートしていますか？ HunyuanOCRは多言語ドキュメント解析に焦点を当てており、主要言語（中国語、英語など）のサポートは優れています。ベンチマークから判断すると、言語間翻訳タスク（DoTAテストセットなど）を処理する際にも優れたパフォーマンスを発揮しており、強力な多言語理解能力を備えていることがわかります。 3. このモデルは何に適していますか？以下のシナリオに非常に適しています：複雑なドキュメントのデジタル化：PDFやスキャンファイルの表やレイアウトの復元。自然シーンの文字認識：ストリートビュー画像内の看板やナンバープレートの読み取り。動画コンテンツ分析：動画内のハードサブタイトルの自動抽出。リアルタイム翻訳ツール：写真翻訳アプリケーション。 4. GPT-4oと比較して、HunyuanOCRの利点はどこにありますか？ GPT-4oはオールラウンドな選手ですが、純粋なOCR精度（特にピクセルレベルの文字位置特定と認識）において、HunyuanOCRはより高い専門性を示しています。OmniDocBenchのデータによると、HunyuanOCRはドキュメント解析スコアでGPT-4oを大幅にリードしており、運用コストが低く、速度も速い可能性があります。

Nov 26, 2025 Read →

A …

tool

AIは日本語漫画の文字認識をどのように向上させるのか？新しいOCRモデルの応用

多くの漫画読者や開発者にとって、漫画内の文字を正確に認識することは常に課題でした。最近、日本の漫画に特化して微調整されたAI文字認識（OCR）モデルは、認識精度を27%から70%に向上させ、漫画翻訳および関連アプリケーションに新たな可能性をもたらしました。原文の漫画を直接読むのが好きな読者にとって、言語の壁はしばしば最初の課題となります。また、ツールを使って読書を補助したり翻訳を行ったりしたい人にとって、コンピュータが漫画の文字を正確に「読み取る」方法は、重要な技術的課題です。この背後にある核となる技術は、**光学文字認識（Optical Character Recognition, OCR）**と呼ばれます。現在のOCR技術は標準的な文書の処理においてはかなり成熟していますが、漫画に応用されると多くの困難に直面します。漫画の文字認識がなぜこんなに難しいのか？漫画の文字表現方法は一般的な文書とは大きく異なり、これがOCR技術にいくつかの主要な課題をもたらします。多様なフォントスタイル：漫画家はキャラクターの感情や音の強さを伝えるために様々な芸術的なフォントを使用することが多く、これらの非標準化されたフォントはコンピュータにとって認識が困難です。不規則なレイアウト：吹き出し内の文字は縦書き、横書き、さらには斜めに配置されることもあり、位置特定と認識の複雑さを増します。複雑な背景の干渉：文字はしばしば豊かな絵や効果線の上に重ねて表示され、白地に黒文字のように明確ではありません。特殊な漫画記号：多数の擬音語や効果音は漫画特有の表現方法であり、汎用OCRモデルは通常、これらの内容に対して訓練されていません。これらの要因により、ほとんどの汎用OCRツールは漫画を処理する際に、認識結果の精度が理想的ではありません。漫画専用に設計された PaddleOCR-VL-For-Manga モデルこの問題を解決するために、ある開発者が日本の漫画の特性に特化し、「PaddleOCR-VL-For-Manga」という特別なAIモデルをリリースしました。このプロジェクトの基盤は、BaiduのPaddlePaddleチームが開発した視覚言語モデル**PaddleOCR-VL**です。漫画のシナリオにより適応させるため、開発者は「ファインチューニング」（Fine-tuning）と呼ばれる、特定の領域のデータでモデルを追加訓練する作業を行いました。訓練データは主にManga109-sデータセットから取得され、150万個の追加生成された合成サンプルで補完されました。これらの専門的な漫画データを通じて、モデルは漫画内の様々な特殊な文字スタイルとレイアウトを認識する方法を学習しました。 Manga109-s データセットについて Manga109 は学術機関によって編集された、109作品の日本の漫画を含む研究用データセットです。その中の Manga109-s サブセットは、商業開発に利用することが特別に許可されており、関連アプリケーションの研究に貴重なリソースを提供しています。認識結果：精度が27%から70%に向上この専門的なファインチューニングにより、モデルのパフォーマンスは著しく向上しました。開発者が公開した情報によると、元のモデルの漫画における完全な文章の認識精度は約27%でしたが、ファインチューニングされた「PaddleOCR-VL-For-Manga」モデルでは、精度が**70%**に向上しました。この進歩は、モデルが吹き出し内の文章を断片的な単語だけでなく、より完全に認識できるようになったことを意味します。新しいモデルは、漫画の吹き出しや様式化されたフォントの処理において良好なパフォーマンスを示しています。しかし、開発者は「全角」と「半角」文字の区別にはまだ改善の余地があるとも指摘しています。それでも、これは漫画OCR技術分野において注目すべき進展です。このモデルの利用方法このモデルはオープンソースであり、この技術に興味のある開発者はHugging Faceプラットフォームで見つけることができます。ユーザーはTransformers、PaddleOCR、またはPaddleOCR-VLをサポートする他のライブラリを通じてこのモデルを呼び出すことができます。開発者は、固定レイアウトの文書を処理する場合は、PP-DocLayoutV2レイアウト分析ツールと組み合わせて使用することを推奨していますが、同時に漫画のレイアウトは標準文書とは異なることにも注意を促しています。この技術の潜在的な応用この種の技術の進歩は、多くの分野に実用的な価値をもたらします。漫画翻訳の補助：翻訳チームは、このツールを使用して初期のテキスト抽出を行い、その後、人間が専門的な翻訳と修正を行うことで、作業効率を向上させることができます。語学学習ツールの開発：将来的には、OCR技術を組み合わせたより多くのアプリケーションが登場するかもしれません。例えば、携帯電話で漫画を撮影するだけでリアルタイム翻訳ができ、日本語学習者を支援するようなものです。学術テキスト分析の促進：研究者は、大量の漫画からテキストデータをより便利に抽出し、言語学や文化研究の分析を行うことができます。全体として、漫画に特化して微調整されたこのOCRモデルは、特定のアプリケーションシナリオにおけるAI技術の可能性を示しています。それは長年の技術的課題を解決するための効果的なアプローチを提供し、漫画関連のデジタル化アプリケーションにさらなる可能性をもたらします。

Nov 7, 2025 Read →