news

AIニュース:DeepSeek OCR 2がオープンソース化、Google AI Plusが全面展開:視覚モデルとサブスクリプションの新たな戦場

January 28, 2026
Updated Jan 28
1 min read

今週のAI分野の動きは、まさに「目まぐるしい」という言葉がぴったりです。これは単なるモデルパラメータの軍拡競争ではなく、「AIがいかにして人間のように世界を見るか」という技術革新の物語です。

DeepSeekは再びオープンソース精神を発揮し、「視覚的因果フロー(Visual Causal Flow)」を導入したOCR 2モデルを公開、従来の視覚スキャンの閉塞感を打破しようとしています。一方、Googleも負けじと、より手頃なAI Plusサブスクリプションプランを開始する一方で、Gemini 3 Flashにおいて画像を「能動的に調査」できるAgentic Visionを披露しました。もちろん、通義実験室(Tongyi Lab)がもたらしたZ-Image基盤モデルもあり、画像生成分野に新たな活力を注入しています。

これらの技術アップデートの背後にある詳細と影響を詳しく見ていきましょう。

視覚ロジックの進化:DeepSeek-OCR 2の「因果フロー」革命

ドキュメント処理技術に注目している方なら、従来のOCR(光学文字認識)の悩みをご存知でしょう。それらは通常、左上から右下へと機械的にスキャンします。しかし、人間はそのようには読みません。複雑なレポートや雑誌を見る際、視線は意味の論理に従ってジャンプします。

これこそが、DeepSeek-OCR 2 が解決しようとしている核心的な問題です。DeepSeekチームは認識率を向上させただけでなく、人間に非常によく似たアーキテクチャ概念、すなわち 視覚的因果フロー (Visual Causal Flow) を導入しました。

なぜ「因果フロー」が重要なのか?

モデルがピクセルを受動的に受け取るのではなく、文脈に基づいて次にどこを見るべきかを能動的に「決定」すると想像してみてください。DeepSeek-OCR 2は「因果フロークエリ (Causal flow query)」を導入することで、視覚エンコーダに推論能力を持たせました。これは、複雑なレイアウト、数式、あるいは表を解釈する際に、モデルが意味不明な文字列を出力するのではなく、視覚情報をより正確に再構築できることを意味します。

技術的な詳細においても、このモデルは非常に魅力的です:

  • 強力なアーキテクチャ: Vision Tokenizer (SAM-baseベース) とLLMライクな視覚エンコーダ (Qwen2 0.5B) を組み合わせて採用しています。
  • 高パフォーマンス: 最大1024x1024の入力解像度をサポートし、視覚トークンを256から1120の間に圧縮できます。これはGemini 3 Proの視覚処理予算とちょうど競合するレベルですが、OmniDocBenchベンチマークでは優れた成績を収めました。
  • オープンソース精神: コードと重みは現在 GitHub および HuggingFace で公開されています。

大量の複雑なドキュメントを処理する必要がある開発者にとって、これは間違いなく強力なツールです。適切なアーキテクチャ設計があれば、小規模なパラメータモデルでも驚くべき「読解力」を発揮できることを証明しています。

Googleの二面作戦:手頃なサブスクリプションと能動的視覚

視点をGoogleに移しましょう。このテック巨人は絶妙なバランスゲームを演じています。新しいサブスクリプション階層を通じて市場シェアを拡大する一方で、より強力な技術を見せつけています。

Google AI Plus:中間層を埋める

長い間、ユーザーには無料版と高価なPro版の間の妥協案がありませんでした。Googleはついにこの声に応え、Google AI Plus をローンチしました。

この新プランは月額7.99ドル(新規ユーザーは最初の2ヶ月半額)で、そのポジショニングは非常に的確です:

  • 権限のアップグレード: Gemini 3 ProやNano Banana Proなどのより強力なモデルを使用可能。
  • クリエイティブツール: FlowのAI動画制作ツールへのアクセス権や、NotebookLMの高度な機能が含まれます。
  • ファミリー共有: 200GBのストレージ容量を持ち、最大5人の家族メンバーと共有可能です。

このサービスは米国を含む35の新しい国と地域で 全面的に開始 されています。Pro版は高すぎるが、無料版の機能には制限を感じているユーザーにとって、これは非常に魅力的な選択肢です。

Gemini 3 FlashがAgentic Visionを導入

AI Plusが商業的な布石だとすれば、Agentic Vision は技術的なショーケースです。

現在のAIモデルは通常、画像を「静的」に見ます。一瞥して、詳細を推測するのです。もし画像内のシリアル番号が小さすぎてはっきり見えない場合はどうなるでしょうか? 従来のモデルは当てずっぽうに推測するしかありません。しかし、GoogleがGemini 3 Flashに導入した Agentic Vision はこれを変えました。

この機能により、モデルは「エージェント」のような行動力を持ちます。「思考 (Think) -> 行動 (Act) -> 観察 (Observe)」のサイクルに従います。

  1. 思考: モデルがユーザーのニーズを分析します。
  2. 行動: モデルがPythonコードを記述・実行し、画像を操作(特定の領域の切り抜き、回転、拡大など)します。
  3. 観察: 処理後の画像をチェックして、より正確な情報を取得します。

例えば、「写真の中の指の数を数えて」と頼むと、感覚で数えるのではなく、コードを書いて指一本一本に枠を描き、正確にカウントします。この「能動的調査」能力により、視覚理解は受動的なものから能動的なものへと変化します。

開発者への注意:縮小する無料のランチ

しかし、これらの良いニュースの裏で、開発者を少し悩ませる変化もあります。Googleの開発者リレーション責任者であるLogan Kilpatrick氏は、Google AI Studioの無料枠のUI使用制限(Limits)が引き下げられ、今後もさらに引き下げられる見込みであることを 認めました

公式のアドバイスは明確です。高頻度での使用を続けたい場合は、API Keyモードに切り替えるか、有料プランへのアップグレードを検討してください。幸いなことに、AI Studioでの「Vibe Coding」体験は一時的に影響を受けません。これは一つの現実を反映しています。AIの計算コストは高く、完全に無料の遊び場の時代は徐々に終わりを迎えつつあるのかもしれません。

通義 Z-Image:純粋な画像生成への回帰

画像生成の分野では、多くのモデルが高度に蒸留されたり、特定用途向けに調整されたりしています。これは便利ですが、二次開発の余地を制限してしまいます。通義実験室(Tongyi Lab)が発表した Z-Image は異なる道を歩んでいます。

Z-Imageは自らを「蒸留されていない基盤モデル」と称しています。技術的に聞こえますが、クリエイターや開発者にとっては大きな意味を持ちます。これは、完全なトレーニングシグナルを保持し、完全なCFG(Classifier-Free Guidance)をサポートしていることを意味し、プロンプト(Prompt Engineering)を細かく制御する必要があるプロフェッショナルなワークフローにとって極めて重要です。

その GitHubページ の記述によると、Z-Imageの利点は以下の通りです:

  • 究極の多様性: 超写実的な写真からアニメスタイルまで対応し、ランダム生成される構図や光の表現において優れた性能を発揮します。
  • ファインチューニングの親和性: 元の特性を保持しているため、LoRAやControlNetのトレーニングベースとして非常に適しています。
  • ネガティブプロンプト制御: ネガティブプロンプト(Negative Prompt)への反応が非常に敏感で、画像の崩れを効果的に抑制できます。

Turboバージョン(速度を追求し、制御性を一部犠牲にしている)と比較して、標準版のZ-Imageはステップ数が多い(28-50ステップ)ものの、より高い視覚品質と編集の柔軟性を提供します。

よくある質問 (FAQ)

Q: DeepSeek-OCR 2と従来のOCRソフトウェアの本質的な違いは何ですか? A: 従来のOCRは通常、固定された順序(左上から右下など)でスキャンするため、複雑なレイアウトを崩しやすいです。DeepSeek-OCR 2は人間の視覚ロジックを模倣し、「視覚的因果フロー」を備えており、内容の意味に基づいて読む順序を能動的に判断できるため、複雑な雑誌、フォーム、学術論文の処理に特に適しています。

Q: すでにGoogle One 2TBプランを持っていますが、AI Plusを追加購入する必要がありますか? A: 必要ありません。Googleによると、既存のGoogle One Premium 2TB加入者は、今後数日以内にAI Plusのすべての特典を自動的に受け取ることになります。

Q: Agentic VisionはどのようにしてGeminiにより鮮明に見えるようにさせているのですか? A: 単に「見る」だけでなく、「手を動かし」ます。Agentic VisionはモデルがPythonコードを記述して、画像の拡大、切り抜き、注釈付けを行えるようにします。これは人間が物がよく見えないときに近づいたり、指で指して数えたりするように、対話を通じて正確な情報を取得するのと同じです。

Q: Z-ImageとZ-Image-Turboのどちらを選ぶべきですか? A: 独自のスタイルモデル(LoRA)をトレーニングしたい開発者や、極めて高い画像制御力を必要とする場合は、標準版の Z-Image を選択してください。高品質な画像を素早く生成したく、複雑なネガティブプロンプト制御を必要としない場合は、Turboバージョンの方が効率的です。

Q: Google AI Studioの無料制限が引き下げられた後、開発者はどうすればよいですか? A: UIインターフェース(Playground)の制限はますます厳しくなるため、API Keyを使用した呼び出しに慣れることをお勧めします。ヘビーユーザーの場合は、有料のAI ProまたはUltraプランへのアップグレードを検討する必要があるかもしれません。

シェアする:
Featured Partners

© 2026 Communeify. All rights reserved.