GLM-4.6Vシリーズモデルが正式に発表され、クラウドの高性能とローカルの低遅延シナリオをそれぞれターゲットにした106Bと9Bの2つのバージョンが登場しました。この記事では、そのネイティブなFunction Calling機能がどのように「見る」と「行う」の境界を取り払い、長文ドキュメントの理解、フロントエンドコードの生成、そして混合画像・テキスト作成における実際の応用について深く掘り下げます。詳細なベンチマークデータとデプロイリソースも添付されています。
視覚モデルの新たなマイルストーン:単なる「理解」を超えて
人工知能分野の発展は常に目を見張るものがあります。言語モデルが流暢に話すことに慣れてきた矢先、マルチモーダルAI(Multimodal AI)がその基準をさらに引き上げました。今回のGLM-4.6Vのリリースは、非常に興味深いシグナルをもたらしました。モデルはもはや「画像を見て話す」だけでは満足せず、「画像を見て行動する」ことを試み始めています。
GLM-4.6Vシリーズは2つのバージョンをリリースしました。1つはクラウドおよび高性能コンピューティングクラスター向けに設計された基盤モデルGLM-4.6V (106B)、もう1つはローカルデプロイと低遅延アプリケーション向けに最適化された軽量モデル**GLM-4.6V-Flash (9B)**です。両モデルともトレーニング時にコンテキストウィンドウを128kトークンまで拡張しており、これは一度に処理できる情報量が驚異的であることを意味します。
これは単なるパラメータ数の積み上げではありません。今回のアップデートの核心的なブレークスルーは、「ネイティブなFunction Calling(関数呼び出し)」の統合にあります。これは少し専門的に聞こえるかもしれませんが、簡単に言えば、AIを単なるコメントする観察者から、実際に手を動かして問題を解決する実行者に変えるものです。
認識と行動をつなぐ:ネイティブな視覚駆動ツール使用
これまで、マルチモーダルモデルがタスクを処理する際、通常は見た画像をまずテキスト記述に変換し、そのテキストに基づいてツールを呼び出す必要がありました。この変換プロセスでは、詳細が失われたり、誤解が生じたりすることがよくありました。
GLM-4.6Vは異なるアプローチをとっています。Native Multimodal Function Callingを導入しました。これは、画像、スクリーンショット、またはドキュメントページを、テキスト変換の手順を経ずに直接ツールの入力パラメータとして使用できることを意味します。複雑なレポートのスクリーンショットをモデルに投げると、モデルはそれをテキストに「翻訳」する必要はなく、画像を直接「見て」検索ツールや計算ツールを呼び出し、最終的な結果(チャートであれレンダリングされたページであれ)も推論チェーンに直接統合できると想像してください。
これは、「視覚認識」から「理解」、そして「実行」への閉ループを真に実現しました。開発者にとって、これは実際のビジネスシナリオを処理できるAIエージェント(Agent)を構築するための、より統一された技術基盤を提供します。
混合画像・テキスト作成:人間のようにコンテンツを構成する
コンテンツクリエイターは、Interleaved Image-Text Content Generation(画像とテキストが交錯するコンテンツ生成)という機能に特に興味を持つかもしれません。
以前、AIに画像付きの記事を書かせる場合、通常は別々に行われていました。まず文章を書き、次に画像を探すという手順です。しかし、GLM-4.6Vは、ドキュメント、ユーザー入力、ツール検索画像を含むマルチモーダルなコンテキストを処理できます。コンテンツ生成プロセスにおいて、検索および取得ツールを自発的に呼び出し、追加のテキストや視覚素材を収集・選別します。
最終的に生成される結果は、タスクに合わせて調整された、画像とテキストが調和した一貫性のあるコンテンツです。それはまるで、素材を強引につなぎ合わせるのではなく、テキストの重要な箇所に裏付けとなる画像を挿入する方法を知っている経験豊富な編集者のようです。
長文ドキュメントと複雑なチャートの天敵
ビジネス文書を扱う際、最も頭を悩ませるのは、フォーマットが複雑なPDFやスキャンデータであることがよくあります。GLM-4.6VはMultimodal Document Understanding機能を備えており、最大128Kトークンのマルチドキュメントまたは長文ドキュメント入力を処理できます。
これには大きな利点があります。フォーマット豊富なページを画像として直接理解できるということです。つまり、テキスト、レイアウト、チャート、表、画像を同時に読み取ることができます。これにより、従来のOCR(光学文字認識)技術がすべてをプレーンテキストに変換する際に、レイアウト構造が失われたり、表がずれたりする問題を回避できます。大量の決算報告書や技術マニュアルを分析する必要がある専門家にとって、これは校正時間を大幅に節約できます。
フロントエンドエンジニアのAIアシスタント:スクリーンショットからコードへ
Web開発者にとって、Frontend Replication & Visual Editingは非常に実用的な機能です。
モデルにUIのスクリーンショットを渡すだけで、対応するHTMLとCSSコードをピクセルレベルで復元できます。レイアウト、コンポーネント、スタイルを視覚的に検出し、クリーンなコードを生成します。さらにすごいのは、自然言語による修正をサポートしていることです。ボタンの色が違う、レイアウトが詰まりすぎていると感じたら、デザイナーに話すように指示を出すだけで、モデルは反復的な視覚的修正を行います。
性能評価:106B対9Bの実力対決
これだけの機能を語りましたが、実際のパフォーマンスはどうでしょうか?具体的な評価データを見てみましょう。この表は、GLM-4.6Vの2つのバージョンの各ベンチマークにおけるスコアを示しています。
注目すべきは、Flashバージョン(9B)はパラメータが小さいものの、多くのタスクで106Bバージョンとの差がそれほど大きくないことです。これはそのコストパフォーマンスが非常に高く、リソースが制限されたローカルデプロイに非常に適していることを示しています。
GLM-4.6Vシリーズ ベンチマーク結果
| ベンチマーク (Benchmarks) | GLM-4.6V (106B) | GLM-4.6V-Flash (9B) | GLM-4.5V (106B) | Qwen3-VL-8B | Kimi-VL-A3B |
|---|---|---|---|---|---|
| General VQA (一般視覚応答) | |||||
| MMBench V1.1 | 88.8 | 86.9 | 88.2 | 84.3 | 84.4 |
| MMBench V1.1 (CN) | 88.2 | 85.9 | 88.3 | 83.3 | 80.7 |
| MMStar | 75.9 | 74.7 | 75.3 | 75.3 | 70.4 |
| BLINK (Val) | 65.5 | 65.5 | 65.3 | 64.7 | 53.5 |
| MUIRBENCH | 77.1 | 75.7 | 75.3 | 76.8 | 63.8 |
| Multimodal Reasoning (マルチモーダル推論) | |||||
| MMMU (Val) | 76.0 | 71.1 | 75.4 | 74.1 | 64.0 |
| MMMU_Pro | 66.0 | 60.6 | 65.2 | 60.4 | 46.3 |
| VideoMMMU | 74.7 | 70.1 | 72.4 | 72.8 | 65.2 |
| MathVista | 85.2 | 82.7 | 84.6 | 81.4 | 80.1 |
| AI2D | 88.8 | 89.2 | 88.1 | 84.9 | 81.9 |
| Multimodal Agentic (マルチモーダルエージェント) | |||||
| Design2Code | 88.6 | 69.8 | 82.2 | 56.6 | 38.8 |
| Flame-React-Eval | 86.3 | 78.8 | 82.5 | 56.3 | 36.3 |
| OSWorld | 37.2 | 21.1 | 35.8 | 33.9 | 8.2 |
| AndroidWorld | 57.0 | 42.7 | 57.0 | 50.0 | - |
| WebVoyager | 81.0 | 71.8 | 84.4 | 47.7 | - |
| OCR & Chart (文字認識とチャート) | |||||
| OCRBench | 86.5 | 84.7 | 86.5 | 81.9 | 86.9 |
| ChartQAPro | 65.5 | 62.6 | 64.0 | 58.4 | 23.7 |
| Spatial & Grounding (空間と位置特定) | |||||
| RefCOCO-avg (val) | 88.6 | 85.6 | 91.3 | 89.3 | 33.6 |
| Ref-L4-test | 88.9 | 87.7 | 89.5 | 88.6 | 51.3 |
データからわかるように、GLM-4.6Vはマルチモーダルエージェント(Agentic)と推論(Reasoning)の面での向上が特に顕著であり、これは「行動実行」能力の強化を裏付けています。
入手方法とデプロイ
このモデルを試してみたい開発者は、現在Hugging FaceからGLM-4.6Vシリーズモデルをダウンロードして使用することができます。
ローカルデプロイの愛好家で、llama.cppを使用してモデルを実行することに慣れている場合、少し注意が必要です。現在、GLM 4.5V/4.6Vに対するllama.cppのサポートはまだドラフト段階(Draft PR)にあり、コミュニティは積極的に推進していますが、まだ十分に安定していない可能性があります。進捗状況の追跡やテストへの参加に興味がある方は、このGitHub Pull Request #16600をフォローしてください。
これは、この新しいモデルをローカルで完全に実行するには、もう少し待つ必要があるか、まだマージされていないコードを処理するためのデバッグ能力が必要になるかもしれないことを意味します。
よくある質問 (FAQ)
GLM-4.6Vの特徴をより早く理解していただくために、いくつかの核心的なQ&Aをまとめました:
Q1:GLM-4.6VとGLM-4.6V-Flashの主な違いは何ですか? GLM-4.6V (106B)はクラウドおよび高性能クラスター向けに設計されたフラッグシップモデルで、最も複雑な推論やマルチモーダルタスクの処理に適しています。一方、GLM-4.6V-Flash (9B)はローカルデプロイおよび低遅延シナリオ向けに最適化された軽量バージョンであり、パラメータは少ないものの、多くのベンチマークで依然としてフラッグシップモデルに近い実力を示しています。
Q2:「ネイティブなマルチモーダルFunction Calling」とは何ですか? これは、モデルが画像(スクリーンショット、ドキュメントなど)をテキストに変換することなく、直接ツールの入力パラメータとして受け取ることができることを意味します。これにより、モデルはエラーのスクリーンショットに基づいて検索ツールを直接呼び出すなど、より正確に「見て操作する」ことができ、実際のビジネスシナリオにおけるAIエージェントの実行効率が大幅に向上します。
Q3:これを使ってWebコードを書くことはできますか? はい、可能です。GLM-4.6Vはフロントエンドの複製と視覚的な編集機能を備えています。UIのスクリーンショットをアップロードすると、モデルは対応するHTMLとCSSコードを生成します。さらに、自然言語の指示(「ボタンをもう少し大きくして」など)を使用して、満足いくまでモデルにコードを修正させることもできます。
Q4:現在、ローカルデバイスでGLM-4.6Vを実行できますか?
理論的には可能です。特に9BのFlashバージョンはローカル実行に非常に適しています。ただし、主流のローカル推論フレームワークであるllama.cppでのこのシリーズのサポートは現在まだ開発中(Draft段階)であるため、一般ユーザーが最もスムーズな体験を得るには、公式サポートがマージされるのを待つ必要があるかもしれません。


