AI界にまたもやビッグニュースです!Zhipu AIが、MoEアーキテクチャに基づく新世代の視覚推論モデル「GLM-4.5V」を正式にリリースしました。このモデルは、多くのベンチマークテストでトップに立つだけでなく、オープンソースとしてすべての開発者に公開されています。本記事では、なぜGLM-4.5Vが現在のオープンソース分野におけるパフォーマンスモンスターと称賛されているのかを詳しく解説します。
見間違いではありません。AIの進化のスピードは、決して期待を裏切りません。誰もがまだ大規模言語モデル(LLM)の様々な可能性について熱心に議論している中、Zhipu AIは静かに爆弾を投下しました——新世代のフラッグシップ視覚言語モデル(VLM)であるGLM-4.5Vを正式に発表したのです。
これは単なる定期的な製品アップデートではありません。GLM-4.5Vの登場は、オープンソースコミュニティ全体の技術的な天井を直接引き上げたと言えるでしょう。画像やテキストなどのマルチモーダル入力に対応するだけでなく、複数の権威あるベンチマークテストで、圧倒的なスコアで多くの競合を打ち負かし、いわゆるSOTA(State-of-the-Art)レベルに達しました。
では、このモデルは一体どんな能力を持っているのでしょうか?一緒に見ていきましょう。
スコアを見る前に、その「心臓部」——MoEアーキテクチャについて話そう
パフォーマンスを深く掘り下げる前に、まずGLM-4.5Vの核心的な設計であるMoE(Mixture-of-Experts)アーキテクチャ、つまり「専門家混合」アーキテクチャを理解する必要があります。
これはどのような概念でしょうか?トップクラスのコンサルタントチームを想像してみてください。従来の大型モデルは、すべての分野をマスターしようとするジェネラリストのようなもので、知識は豊富ですが、特定の専門的な問題を扱う際には深さが足りないかもしれません。しかし、MoEアーキテクチャは異なります。内部に複数の「専門家ネットワーク」を持ち、各専門家が画像認識、テキスト理解、論理的推論など、特定の分野に特化しています。
モデルがタスクを受け取ると、「ゲーティングネットワーク」が、このタスクをどの専門家に任せるのが最も効率的かを賢く判断します。これにはどんな利点があるのでしょうか?
- より高い効率性: すべての問題を処理するために、もはや巨大なモデル全体を動員する必要はありません。GLM-4.5Vの総パラメータ数は1060億ですが、タスクを処理するたびにアクティブになるのは約120億のパラメータだけです。これは、会社中の全員を呼び出すのではなく、チーム内の関連する専門家2、3人に会議を依頼するようなものです。
- より強力なパフォーマンス: 「餅は餅屋」。専門の「専門家」が特定のタスクを処理することで、当然「ジェネラリスト」よりも良い結果が得られます。
これこそが、GLM-4.5Vが比較的に低い計算コストを維持しながら、驚異的なパフォーマンスを発揮できる秘密兵器なのです。
データが物語る:GLM-4.5Vの驚異的なパフォーマンス
口先だけでは意味がありません。直接データを見てみましょう。Zhipu AIが公開したベンチマークテストの成績表は、非常に見事なものです。この詳細な比較では、GLM-4.5VはStep-3やQwen2.5-VLなどの著名なモデルと真っ向から対決しました。
正直なところ、結果は少し一方的です。
| Benchmarks | GLM-4.5V (106B, A12B w/ thinking) | Step-3 (321B A3B w/ thinking) | Qwen2.5-VL (72B w/o thinking) | GLM-4.1V (9B w/ thinking) | Kimi-VL-2506 (16B A3B w/ thinking) | Gemma-3 (27B w/o thinking) |
|---|---|---|---|---|---|---|
| General VQA | ||||||
| MMBench v1.1 | 88.2 | 81.1* | 88.0 | 85.8 | 84.4 | 80.1* |
| MMBench v1.1 (CN) | 88.3 | 81.5* | 86.7* | 84.7 | 80.7* | 80.8* |
| MMStar | 75.3 | 69.0* | 70.8 | 72.9 | 70.4 | 60.0* |
| BLINK (val) | 65.3 | 62.7* | 58.0* | 65.1 | 53.5* | 52.9* |
| MUIRBENCH | 75.3 | 75.0* | 62.9* | 74.7 | 63.8* | 50.3* |
| HallusionBench | 65.4 | 64.2 | 56.8* | 63.2 | 59.8* | 45.8* |
| ZeroBench (sub) | 23.4 | 23.0 | 19.5* | 19.2 | 16.2* | 17.7* |
| GeoBench | 79.7 | 72.9 | 74.3* | 76.0 | 48.0* | 57.5* |
| STEM | ||||||
| MMMU (val) | 75.4 | 74.2 | 70.2 | 68.0 | 64.0 | 62.0* |
| MMMU Pro | 65.2 | 58.6 | 51.1 | 57.1 | 46.3 | 37.4* |
| MathVista | 84.6 | 79.2* | 74.8 | 80.7 | 80.1 | 64.3* |
| MathVision | 65.6 | 64.8 | 38.1 | 54.4 | 54.4* | 39.8* |
| MathVerse | 72.1 | 62.7* | 47.8* | 68.4 | 54.6* | 34.0* |
| DynaMath | 53.9 | 50.1 | 36.1* | 42.5 | 28.1* | 28.5* |
| LogicVista | 62.4 | 60.2* | 56.2* | 60.4 | 51.4* | 47.3* |
| AI2D | 88.1 | 83.7* | 87.6* | 87.9 | 81.9* | 80.2* |
| WeMath | 68.8 | 59.8 | 46.0* | 63.8 | 42.0* | 37.9* |
| Long Document OCR & Chart | ||||||
| MMLongBench-Doc | 44.7 | 31.8* | 35.2* | 42.4 | 42.1 | 28.4* |
| OCRBench | 86.5 | 83.7 | 85.1* | 84.2 | 86.9 | 75.9* |
| ChartQAPRO | 64.0 | 56.4 | 46.7* | 59.5 | 23.7* | 37.6* |
| ChartMuseum | 55.3 | 40.0* | 39.6* | 48.8 | 33.6* | 23.9* |
| Visual Grounding | ||||||
| RefCOCO-avg (val) | 91.3 | 20.2* | 90.3 | 85.3 | 33.6* | 2.4* |
| TreeBench | 50.1 | 41.3* | 42.3 | 37.5 | 41.5* | 33.8* |
| Ref-L4-test | 89.5 | 12.2* | 80.8* | 86.8 | 51.3* | 2.5* |
| Spatial Reco & Reasoning | ||||||
| OmniSpatial | 51.0 | 47.0* | 47.9 | 47.7 | 37.3* | 40.8* |
| CV-Bench | 87.3 | 80.9* | 82.0* | 85.0 | 79.1* | 74.6* |
| ERQA | 50.0 | 44.5* | 44.8* | 45.8 | 36.0* | 37.5* |
| All-Angles Bench | 56.9 | 52.4* | 54.4* | 52.7 | 48.9* | 48.2* |
| GUI Agents | ||||||
| OSWorld | 35.8 | / | 8.8 | 14.9 | 8.2 | 4.4* |
| AndroidWorld | 57.0 | / | 35.0 | 41.7 | / | 34.8* |
| WebVoyagerSom | 84.4 | / | 40.4* | 69.0 | / | 3.4* |
| Webquest-SingleQA | 76.9 | 60.5* | 72.1 | 72.1 | 35.6* | 31.2* |
| Webquest-MultQA | 60.6 | 52.8* | 52.1* | 54.7 | 11.1* | 36.5* |
| Coding | ||||||
| Design2Code | 82.2 | 34.1 | 41.9* | 64.7 | 38.8 | 16.1 |
| Flame-React-Eval | 82.5 | 63.8 | 46.3* | 72.5 | 36.3 | 27.5 |
| Video Understanding | ||||||
| VideoMME (w/o sub) | 74.6 | / | 73.3 | 68.2 | 67.8 | 58.9* |
| VideoMME (w/ sub) | 80.7 | / | 79.1 | 73.6 | 71.9 | 68.4* |
| MMVU | 68.7 | / | 62.9 | 59.4 | 57.5 | 57.7* |
| VideoMMU | 72.4 | / | 60.2 | 61.0 | 65.2 | 54.5* |
| LVBench | 53.8 | / | 47.3 | 44.0 | 47.6* | 45.9* |
| MotionBench | 62.4 | / | 56.1* | 59.0 | 54.3* | 47.8* |
| MVBench | 73.0 | / | 70.4 | 68.4 | 59.7* | 43.5* |
注:アスタリスク()付きのスコアは、実験室での再現実験の結果です。*
表からわかるように、GLM-4.5Vは大多数の項目で太字のスコアでリードしており、特に一般的な視覚的質問応答(General VQA)、STEM、さらには長文の光学文字認識(OCRBench)においても非常に優れたパフォーマンスを示しています。これは、「絵を見て物語を語る」能力に長けているだけでなく、深い論理的推論能力と専門知識の理解能力を兼ね備えていることを証明しています。
興味深い点として、総パラメータ数が3210億にも上るStep-3のような巨大モデルを相手にしても、GLM-4.5Vはいくつかの重要な項目で勝利を収めています。これは、MoEアーキテクチャの効率性とパフォーマンスの絶妙なバランスを改めて証明するものです。
テストから現実へ:これは私たちにとって何を意味するのか?
ベンチマークのスコアはもちろん重要ですが、これらの数字が現実世界でどのような変化をもたらすのでしょうか?
- より賢いAIアシスタント: 会議のホワイトボードの写真を渡せば、自動的に議事録にまとめてくれます。複雑な財務報告書のスクリーンショットを渡せば、重要なデータを分析してくれます。
- 自動化能力のさらなる向上: GUIエージェントテストでの優れたパフォーマンスは、ソフトウェアのインターフェースを操作し、チケット予約やフォーム入力などの煩雑なタスクを自動で完了させる真の「ソフトウェアロボット」を実現する可能性を示しています。
- 開発者の強力な助っ人: 開発者は、その視覚理解能力を利用して、UIデザイン案を直接コードに変換したり、アプリケーションのエラー画面を「理解」させてデバッグを補助させたりすることができます。
簡単に言えば、GLM-4.5Vの登場により、AIは単なるおしゃべりマシンではなく、人間の「目と脳の協調」作業モードにさらに近づいたのです。
オープンソースの力:誰もがアクセスできる最先端技術
最もエキサイティングな点は、Zhipu AIがこれほど強力なGLM-4.5Vをオープンソースとして公開することを選んだことです。
これは、あなたが独立した開発者であれ、学術研究者であれ、スタートアップのエンジニアであれ、今やHugging Faceプラットフォームを通じてモデルをダウンロードしたり、APIサービスを利用して、この最先端の視覚推論能力を自身のアプリケーションに統合できることを意味します。
オープンソースという決定は、間違いなくAIエコシステム全体のイノベーションを大幅に加速させるでしょう。将来的には、スマート教育、医療画像分析からインタラクティブエンターテイメントまで、GLM-4.5Vを基盤とした興味深いアプリケーションが数多く登場することが予想されます。可能性は無限大です。
結論として、GLM-4.5Vは単にパフォーマンスの高い新モデルであるだけでなく、Zhipu AIが世界中の開発者に向けて、マルチモーダルAIの未来を共に探求しようという招待状のようなものです。視覚と言語の両方によって駆動されるこの技術革命は、まだ始まったばかりです。


