Zhipu AI が最新のフラッグシップモデル GLM-4.6 を正式に発表しました。コンテキストウィンドウを 20 万トークンに拡張しただけでなく、コード生成、複雑な推論、エージェント能力において驚くべき飛躍を遂げています。本記事では、その性能評価、Claude Sonnet 4 などのトップモデルとの比較、そして GLM-4.6 をすぐに使い始める方法について詳しく解説します。
誰もがまだ様々な大規模言語モデルの機能について熱心に議論している中、Zhipu AI は静かに爆弾を投下しました。最新のフラッグシップモデルである GLM-4.6 を正式に発表したのです。今回のアップデートはマイナーな調整ではなく、以前の GLM-4.5 に対する包括的なアップグレードであり、特に複雑なタスクの処理とコード生成において、業界のトップモデルと競争する強力な能力を示しています。
では、この新バージョンは何がそんなに強力なのでしょうか?そして、激しい AI 競争の中でどのような位置にいるのでしょうか?一緒に見ていきましょう。
5 つのコアアップグレード:GLM-4.6 の違いは?
GLM-4.5 と比較して、今回の GLM-4.6 は、実世界のアプリケーションにおけるパフォーマンスに直接影響を与えるいくつかの重要なブレークスルーをもたらしました。
より長いコンテキストウィンドウ コンテキストウィンドウは、元の 128K トークンから 200K トークンに拡張されました。これは何を意味するのでしょうか?簡単に言えば、モデルはより多くの情報を「記憶」し、より長いドキュメント、コードベース、または会話履歴を一度に処理できるようになりました。このアップグレードは、コンテキストの深い理解を必要とする複雑なエージェントタスクにとって非常に重要です。
優れたコーディングパフォーマンス 標準的なコードベンチマークテストでも、Claude Code、Cline、Kilo Code などの実際の開発ツールでのアプリケーションでも、GLM-4.6 のスコアと実際のパフォーマンスは新しいレベルに達しました。特に言及する価値があるのは、視覚的に精巧な Web フロントエンドインターフェイスの生成において大幅な改善が見られたことです。
高度な推論 GLM-4.6 は、推論パフォーマンスにおいて明らかな進歩を示しました。推論プロセス中に外部ツール(Tool Use)を呼び出すことをサポートするようになり、問題解決能力がより包括的で強力になりました。
より有能なエージェント より強力なツール使用能力と検索能力により、GLM-4.6 は様々なエージェントフレームワークに効果的に統合され、複数ステップの複雑なタスクを実行できます。
洗練されたライティング コンテンツを生成する際のモデルのスタイルと読みやすさは、人間の好みに近くなっています。特に、ロールプレイングなどの繊細な感情表現を必要とするシナリオで、より自然に振る舞います。
パフォーマンス対決:GLM-4.6 はベンチマークテストでどのように機能しますか?
百聞は一見に如かず、データこそが確かな証拠です。Zhipu AI は、エージェント、推論、コーディング能力をカバーする 8 つの公開ベンチマークテストで GLM-4.6 の包括的な評価を実施しました。
評価の説明: 以下のスコアは、128K のコンテキスト長で 8 つのベンチマークテスト(AIME 25、GPQA、LiveCodeBench v6、HLE、BrowseComp、SWE-bench Verified、Terminal-Bench、T²-Bench)で評価された結果です。
| ベンチマーク | GLM-4.6 | GLM-4.5 | DeepSeek-V3.2-Exp | Claude Sonnet 4 | Claude Sonnet 4.5 |
|---|---|---|---|---|---|
| AIME 25 | 93.9 | 89.3 | 85.4 | 74.3 | 87.0 |
| GPQA | 81.0 | 79.9 | 79.9 | 77.7 | 83.4 |
| LiveCodeBench v6 | 82.8 | 63.3 | 57.7 | 48.9 | 70.1 |
| HLE | 30.4 | 14.4 | 17.2 | 9.6 | 19.8 |
| BrowseComp | 45.1 | 26.4 | 14.7 | 19.6 | 40.1 |
| SWE-bench Verified | 68.0 | 64.2 | 67.8 | 72.5 | 77.2 |
| Terminal-Bench | 40.5 | 37.5 | 35.5 | 37.7 | 50.0 |
| T²-Bench (Weighted) | 75.9 | 67.5 | 53.4 | 66.0 | 88.1 |
上のグラフから、青いバーで表される GLM-4.6 が、AIME 25、GPQA、BrowseComp などのいくつかのテストで、緑のバーで表される GLM-4.5 を大幅に上回っていることが明らかです。
さらに興味深いのは、業界をリードするモデルとの比較です。GLM-4.6 は、多くのプロジェクトで DeepSeek-V3.2-Exp や Claude Sonnet 4 に匹敵する競争力を示しています。しかし、「上には上がいる」ということわざがあるように、コーディング能力に関しては、現在のトップモデルである Claude Sonnet 4.5 と比較すると、まだ若干の差があります。これは、AI 技術の急速な発展と激しい競争をも示しています。
スコアだけじゃない:実世界でのコーディング実践
リーダーボードのスコアは重要ですが、開発者が最も気にするのは、実際の開発シナリオでモデルがどのように「感じる」かです。
この目的のために、Zhipu AI は CC-Bench テストプラットフォームを拡張しました。このテストでは、人間の評価者が独立した Docker 環境で AI モデルと複数回対話し、フロントエンド開発、ツール構築、データ分析、ソフトウェアテスト、アルゴリズム設計をカバーする実世界のタスクを完了します。
| 比較(GLM-4.6 vs) | 勝ち | 引き分け | 負け |
|---|---|---|---|
| Claude Sonnet 4 | 48.6% | 9.5% | 41.9% |
| GLM-4.5 | 50.0% | 13.5% | 36.5% |
| Kimi-K2-0905 | 56.8% | 28.3% | 14.9% |
| DeepSeek-V3.1-Terminus | 64.9% | 8.1% | 27.0% |
結果は非常に印象的です。
- Claude Sonnet 4 と互角: GLM-4.6 の勝率は 48.6% に達し、Claude Sonnet 4 とほぼ互角でした。
- 他のオープンソースモデルを凌駕: GLM-4.5、Kimi-K2-0905、DeepSeek-V3.1-Terminus などの他のモデルを大幅に上回っています。
さらに重要なのは、効率です。トークン使用効率の観点から、GLM-4.6 は同じタスクを完了するために GLM-4.5 よりも約 15% 少ないトークンしか必要としません。これは、より強力になっただけでなく、より経済的になったことを意味します。すべての評価の詳細とデータは、コミュニティによるさらなる研究のために Hugging Face で公開されています。
GLM-4.6 を使い始めるには?
これを読んで、自分で試してみたくなったのではないでしょうか?現在、GLM-4.6 の強力な機能を体験するにはいくつかの方法があります。
Z.ai API プラットフォーム経由で呼び出す 開発者は、Z.ai API プラットフォームで GLM-4.6 モデルを直接呼び出すことができます。詳細な API ドキュメントと統合ガイドについては、公式ドキュメント を参照してください。さらに、OpenRouter プラットフォーム経由でアクセスすることもできます。
コードエージェントで使用する GLM-4.6 は、Claude Code、Kilo Code、Roo Code など、いくつかの主流のコードエージェントツールをサポートするようになりました。
- GLM コーディングプランの加入者向け: システムは自動的にアップグレードされます。プロファイルをカスタマイズしたことがある場合(例:
~/.claude/settings.json)、モデル名を"glm-4.6"に変更するだけでアップグレードが完了します。 - 新規ユーザー向け: GLM コーディングプランは非常に魅力的な価格を提供しており、Claude の 7 分の 1 の価格で 3 倍の使用量を得ることができます。今すぐ購読 しましょう!
- GLM コーディングプランの加入者向け: システムは自動的にアップグレードされます。プロファイルをカスタマイズしたことがある場合(例:
Z.ai ウェブサイトでチャットする 最も簡単で直接的な方法は、Z.ai ウェブサイトにアクセスし、モデルオプションで GLM-4.6 を選択すると、直接チャットできます。
ローカルにデプロイする 自分のマシンで実行したいユーザーのために、GLM-4.6 のモデルウェイトはまもなく HuggingFace と ModelScope で利用可能になります。vLLM や SGLang などの主流の推論フレームワークをサポートしています。詳細なデプロイ手順は、公式 GitHub リポジトリ に記載されています。
要約すると、GLM-4.6 の発売は、AI 開発者とユーザーに非常に競争力のある新しい選択肢を間違いなく提供します。パフォーマンスでトップモデルに追いつくだけでなく、実際のアプリケーションシナリオと使用効率において大きな価値を示しています。AI モデルの軍拡競争は続いており、GLM-4.6 はこの競争において無視できない強力なプレーヤーであることは間違いありません。


