GLM-4.6 が新登場：Claude Sonnet に挑戦、コードと推論能力がさらに進化

Zhipu AI が最

の性能評価、Claude Sonne

Code、Cline、Kilo

い。さらに、OpenRouter プラットフ

はまもなく HuggingFace と Mod

ace と ModelScope で利用可能

tool

GLM-4.6 が新登場：Claude Sonnet に挑戦、コードと推論能力がさらに進化

2025-09-30

Zhipu AI が最新のフラッグシップモデル GLM-4.6 を正式に発表しました。コンテキストウィンドウを 20 万トークンに拡張しただけでなく、コード生成、複雑な推論、エージェント能力において驚くべき飛躍を遂げています。本記事では、その性能評価、Claude Sonnet 4 などのトップモデルとの比較、そして GLM-4.6 をすぐに使い始める方法について詳しく解説します。

誰もがまだ様々な大規模言語モデルの機能について熱心に議論している中、Zhipu AI は静かに爆弾を投下しました。最新のフラッグシップモデルである GLM-4.6 を正式に発表したのです。今回のアップデートはマイナーな調整ではなく、以前の GLM-4.5 に対する包括的なアップグレードであり、特に複雑なタスクの処理とコード生成において、業界のトップモデルと競争する強力な能力を示しています。

では、この新バージョンは何がそんなに強力なのでしょうか？そして、激しい AI 競争の中でどのような位置にいるのでしょうか？一緒に見ていきましょう。

5 つのコアアップグレード：GLM-4.6 の違いは？

GLM-4.5 と比較して、今回の GLM-4.6 は、実世界のアプリケーションにおけるパフォーマンスに直接影響を与えるいくつかの重要なブレークスルーをもたらしました。

より長いコンテキストウィンドウ コンテキストウィンドウは、元の 128K トークンから 200K トークンに拡張されました。これは何を意味するのでしょうか？簡単に言えば、モデルはより多くの情報を「記憶」し、より長いドキュメント、コードベース、または会話履歴を一度に処理できるようになりました。このアップグレードは、コンテキストの深い理解を必要とする複雑なエージェントタスクにとって非常に重要です。
優れたコーディングパフォーマンス 標準的なコードベンチマークテストでも、Claude Code、Cline、Kilo Code などの実際の開発ツールでのアプリケーションでも、GLM-4.6 のスコアと実際のパフォーマンスは新しいレベルに達しました。特に言及する価値があるのは、視覚的に精巧な Web フロントエンドインターフェイスの生成において大幅な改善が見られたことです。
高度な推論 GLM-4.6 は、推論パフォーマンスにおいて明らかな進歩を示しました。推論プロセス中に外部ツール（Tool Use）を呼び出すことをサポートするようになり、問題解決能力がより包括的で強力になりました。
より有能なエージェント より強力なツール使用能力と検索能力により、GLM-4.6 は様々なエージェントフレームワークに効果的に統合され、複数ステップの複雑なタスクを実行できます。
洗練されたライティング コンテンツを生成する際のモデルのスタイルと読みやすさは、人間の好みに近くなっています。特に、ロールプレイングなどの繊細な感情表現を必要とするシナリオで、より自然に振る舞います。

パフォーマンス対決：GLM-4.6 はベンチマークテストでどのように機能しますか？

百聞は一見に如かず、データこそが確かな証拠です。Zhipu AI は、エージェント、推論、コーディング能力をカバーする 8 つの公開ベンチマークテストで GLM-4.6 の包括的な評価を実施しました。

評価の説明： 以下のスコアは、128K のコンテキスト長で 8 つのベンチマークテスト（AIME 25、GPQA、LiveCodeBench v6、HLE、BrowseComp、SWE-bench Verified、Terminal-Bench、T²-Bench）で評価された結果です。

ベンチマーク	GLM-4.6	GLM-4.5	DeepSeek-V3.2-Exp	Claude Sonnet 4	Claude Sonnet 4.5
AIME 25	93.9	89.3	85.4	74.3	87.0
GPQA	81.0	79.9	79.9	77.7	83.4
LiveCodeBench v6	82.8	63.3	57.7	48.9	70.1
HLE	30.4	14.4	17.2	9.6	19.8
BrowseComp	45.1	26.4	14.7	19.6	40.1
SWE-bench Verified	68.0	64.2	67.8	72.5	77.2
Terminal-Bench	40.5	37.5	35.5	37.7	50.0
T²-Bench (Weighted)	75.9	67.5	53.4	66.0	88.1

上のグラフから、青いバーで表される GLM-4.6 が、AIME 25、GPQA、BrowseComp などのいくつかのテストで、緑のバーで表される GLM-4.5 を大幅に上回っていることが明らかです。

さらに興味深いのは、業界をリードするモデルとの比較です。GLM-4.6 は、多くのプロジェクトで DeepSeek-V3.2-Exp や Claude Sonnet 4 に匹敵する競争力を示しています。しかし、「上には上がいる」ということわざがあるように、コーディング能力に関しては、現在のトップモデルである Claude Sonnet 4.5 と比較すると、まだ若干の差があります。これは、AI 技術の急速な発展と激しい競争をも示しています。

スコアだけじゃない：実世界でのコーディング実践

リーダーボードのスコアは重要ですが、開発者が最も気にするのは、実際の開発シナリオでモデルがどのように「感じる」かです。

この目的のために、Zhipu AI は CC-Bench テストプラットフォームを拡張しました。このテストでは、人間の評価者が独立した Docker 環境で AI モデルと複数回対話し、フロントエンド開発、ツール構築、データ分析、ソフトウェアテスト、アルゴリズム設計をカバーする実世界のタスクを完了します。

比較（GLM-4.6 vs）	勝ち	引き分け	負け
Claude Sonnet 4	48.6%	9.5%	41.9%
GLM-4.5	50.0%	13.5%	36.5%
Kimi-K2-0905	56.8%	28.3%	14.9%
DeepSeek-V3.1-Terminus	64.9%	8.1%	27.0%

結果は非常に印象的です。

Claude Sonnet 4 と互角： GLM-4.6 の勝率は 48.6% に達し、Claude Sonnet 4 とほぼ互角でした。
他のオープンソースモデルを凌駕： GLM-4.5、Kimi-K2-0905、DeepSeek-V3.1-Terminus などの他のモデルを大幅に上回っています。

さらに重要なのは、効率です。トークン使用効率の観点から、GLM-4.6 は同じタスクを完了するために GLM-4.5 よりも約 15% 少ないトークンしか必要としません。これは、より強力になっただけでなく、より経済的になったことを意味します。すべての評価の詳細とデータは、コミュニティによるさらなる研究のために Hugging Face で公開されています。

GLM-4.6 を使い始めるには？

これを読んで、自分で試してみたくなったのではないでしょうか？現在、GLM-4.6 の強力な機能を体験するにはいくつかの方法があります。

Z.ai API プラットフォーム経由で呼び出す 開発者は、Z.ai API プラットフォームで GLM-4.6 モデルを直接呼び出すことができます。詳細な API ドキュメントと統合ガイドについては、公式ドキュメントを参照してください。さらに、OpenRouter プラットフォーム経由でアクセスすることもできます。
コードエージェントで使用する GLM-4.6 は、Claude Code、Kilo Code、Roo Code など、いくつかの主流のコードエージェントツールをサポートするようになりました。
- GLM コーディングプランの加入者向け： システムは自動的にアップグレードされます。プロファイルをカスタマイズしたことがある場合（例：~/.claude/settings.json）、モデル名を "glm-4.6" に変更するだけでアップグレードが完了します。
- 新規ユーザー向け： GLM コーディングプランは非常に魅力的な価格を提供しており、Claude の 7 分の 1 の価格で 3 倍の使用量を得ることができます。今すぐ購読しましょう！
Z.ai ウェブサイトでチャットする 最も簡単で直接的な方法は、Z.ai ウェブサイトにアクセスし、モデルオプションで GLM-4.6 を選択すると、直接チャットできます。
ローカルにデプロイする 自分のマシンで実行したいユーザーのために、GLM-4.6 のモデルウェイトはまもなく HuggingFace と ModelScope で利用可能になります。vLLM や SGLang などの主流の推論フレームワークをサポートしています。詳細なデプロイ手順は、公式 GitHub リポジトリに記載されています。

要約すると、GLM-4.6 の発売は、AI 開発者とユーザーに非常に競争力のある新しい選択肢を間違いなく提供します。パフォーマンスでトップモデルに追いつくだけでなく、実際のアプリケーションシナリオと使用効率において大きな価値を示しています。AI モデルの軍拡競争は続いており、GLM-4.6 はこの競争において無視できない強力なプレーヤーであることは間違いありません。

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

「 …

tool

「Thinking Machines Inkling」とは？975Bオープンソース重み、マルチモーダルアーキテクチャ、技術解析

Thinking Machines Labが「Inkling」モデルをリリース：975Bオープンソース重みとマルチモーダル技術解析 Thinking Machines Labが、ついに彼らの最初の作品を発表しました。元OpenAIのCTOであるMira Murati氏率いるこのスタートアップは、2026年7月15日にゼロからトレーニングされたマルチモーダルモデル「Inkling」を発表しました。今回はApache 2.0ライセンスを採用し、975Bパラメータの物理重みを公開しました。現在、商用のクローズドモデルがハイエンドアプリケーション市場を占有している中で、これほど大規模なモデルの重みを公開することは、研究コミュニティや企業のデプロイメントにとって依然として非常に高い価値があります。興味深いことに、彼らはThinking Machinesの公式発表の中で率直にこう述べています。「Inklingは現時点で市場で最も強力なモデルではない」。そのポジショニングは、微調整やカスタマイズが容易な、バランスの取れた基礎モデルに近いものです。 975Bパラメータと混合専門家（MoE）設計 Inklingは66層のデコーダーアーキテクチャを持ち、総パラメータ数は975Bに達します。しかし、混合専門家（MoE）アーキテクチャを採用しているため、推論ごとに実際に活性化されるのはそのうちの41Bパラメータであり、計算コストが法外に高くなることはありません。具体的には、そのルーティングメカニズムは256個の専門家モジュールから最も関連性の高い6個を選び出し、さらに2個の常駐共有専門家と組み合わせてタスクを処理します。ルーティングにはSigmoidベースのルーターと、MoEによく見られる専門家の負荷不均衡問題を解決するために設計された、補助損失のない負荷分散バイアス（auxiliary-loss-free load balancing bias）が採用されています。アテンションメカニズムでは、ローカルアテンションとグローバルアテンションを5:1の比率で交互に配置し、相対位置埋め込みと組み合わせて長文を処理します。外部エンコーダー不要のネイティブマルチモーダルアーキテクチャ外部エンコーダーに依存する継ぎ接ぎ型のマルチモーダルとは異なり、Inklingは外部エンコーダー不要（encoder-free）のネイティブマルチモーダルアーキテクチャを採用しています。テキスト、画像、音声、ビデオを含む45兆（45T）トークンで事前トレーニングされました。視覚処理では、4層のhMLP構造を使用して画像を40x40ピクセルのパッチエンコーディングに変換します。音声では、dMelスペクトログラム技術を使用して16kHzの音声信号をトークンに離散化します。すべての入力が同一の潜在空間（latent space）で統合処理されるため、100万（1M）トークンの超長コンテキストウィンドウと相まって、Inklingはマルチモーダルな文脈を理解する際に非常にスムーズなパフォーマンスを発揮します。テレグラフ形式の思考連鎖（CoT）と可制御な思考力公式の技術レポートによると、3000万回以上（30M rollouts）の強化学習（RL）トレーニング過程で、研究チームは興味深い現象を発見しました。Inklingの思考連鎖（CoT）が自己進化したのです。当初は「We need to understand…」といった完全な文法で思考を整理していましたが、トレーニングが進むにつれ、不要な冠詞や接続詞を排除し、「We need determine」というテレグラフ形式（電報形式）に短縮しました。これは出力結果に影響を与えず、トークン消費を大幅に削減しました。画像出典: https://thinkingmachines.ai/news/introducing-inkling/ 画像出典: https://thinkingmachines.ai/news/introducing-inkling/ この特性と組み合わせて、Inklingは0.2から0.99の範囲で「可制御な思考力（controllable thinking effort）」パラメータを提供します。開発者は手動でモデルの「思考の深さ」を調整し、コストと精度を制御できます。例えば、公式のベンチマークによると、Terminal Bench 2.1テストでNemotron 3 Ultraと同等のコーディング性能を達成した際、Inklingが消費したトークン量はNemotronの約3分の1でした。思考連鎖の進化に興味がある場合は、彼らのInklingモデルカードをご覧ください。画像出典: https://thinkingmachines.ai/news/introducing-inkling/ ハードウェア展開とTinker微調整プラットフォーム 975Bのモデルを動かすのは決して簡単なことではありません。フルBF16フォーマットの場合、約2TBのVRAMが必要となり、基本的にはNVIDIA B300を8枚、あるいはH200を16枚使用する必要があります。しかし、Blackwellアーキテクチャ上であれば、最適化されたNVFP4フォーマットを使用することで、VRAM要件を600GBまで削減できます。ハードウェアリソースが限られている場合、彼らは「Inkling-Small」というプレビュー版も提供しています。総パラメータ数276B、活性化パラメータ数12Bと導入ハードルが低く、エッジ環境や概念実証（PoC）に最適です。さらに、彼らのTinkerカスタマイズ微調整プラットフォームと連携し、オープンソース版では64Kと256Kの2つのコンテキスト長を提供しています。現在、開発者はHugging Face上のInklingページからこれらの重みをダウンロードし、tml-renderersパッケージを組み合わせて推論を実行できます。認識論とセキュリティ防御セキュリティ面において、Inklingは認識論（epistemology）評価で優れたパフォーマンスを発揮しています。つまり、自分自身の知識の盲点を把握しているということです。不確実な分野について質問された場合、自信満々に適当なことを言うのではなく、保守的で限定的な推測を提供する傾向があります。また、悪意のあるリクエストをブロックしつつ、過度な防衛を避けるよう努めています。FORTRESSセキュリティ評価において、兵器や暴力などの有害な指示を正確に拒否できる一方で、「一見機微に見えて実は無害な」グレーな質問に対する誤判定率は非常に低いです。公式公開されたモデルカードのデータによると、StrongREJECTによる有害リクエストのインターセプションテストにおいて、スコアは98.6%でした。 Inklingは最強のベンチマークモンスターではないかもしれませんが、オープンソースの重み、ネイティブマルチモーダル、そしてテレグラフ形式の思考効率という点において、モデルを自己デプロイ・微調整したい、あるいはクローズドソースのAPIへの依存を減らしたい開発者にとって、現在非常に注目すべき新しい選択肢です。 Q&A (Q&A) Q1：公式がInklingは現在の市場で最強のベンチマークモデルではないと認めているのに、なぜ開発者はそれを選ぶべきなのでしょうか？ A：公式はInklingを「広範囲かつ高度にバランスの取れた基礎モデル（broad, balanced foundation model）」と位置づけており、単一のベンチマークテストのために狭い最適化を意図的に行っていません。最大の価値は「ネイティブなマルチモーダル能力」、「高効率な思考連鎖」、「開発者に優しいApache 2.0オープンソースライセンス」を組み合わせた点にあります。これにより、クローズドソースベンダーのブラックボックスに囚われることなく、企業が特定のドメイン（自律エージェント、カスタマーサービスシステム、コードアシスタントなど）向けにカスタマイズされた微調整（Fine-tuning）を行うための絶好の出発点となります。 Q2：975Bパラメータは非常に巨大ですが、一般的な企業がハードウェア導入コストを負担することは可能ですか？ A：フルBF16の重みを使用する場合、確かに最大2TBのVRAM（NVIDIA B300を8枚、またはH200を16枚のクラスタに相当）が必要です。しかし、公式は非常に柔軟な代替案を提供しています。最新のBlackwellアーキテクチャ上でデプロイする場合、NVFP4量子化バージョンを使用すればVRAM要件を600GBまで劇的に圧縮できます。リソースが限られているチーム向けには、近日公開予定の「Inkling-Small」（276Bパラメータ、12B活性化）を選択することもでき、多くのベンチマークでフラッグシップ版に近い性能を発揮するため、エッジデプロイや概念実証（PoC）には高いコストパフォーマンスの選択肢となります。

Jul 17, 2026 Read →

2 …

tool

2.8兆パラメータのオープンソースモデル「Kimi K3」解析：MoEアーキテクチャ、エージェント能力、APIコスト

Kimi K3が2.8兆パラメータでオープンソース化：自律型エージェントにとって何を意味するか？ Kimi K3の登場により、オープンソースモデルは初めて3T（3兆）パラメータの閾値に到達しました。そのアーキテクチャ設計、推論コスト、そして企業がこの「巨大な」オープンソースモデルを導入する際に直面するハードウェア上の課題を分解します。 AIはすでに「質問に答える」チャットボットの段階を過ぎました。現在の技術の焦点は、複雑な目標を自分で分解し、手順を計画し、APIやツールを呼び出してタスクを完遂できる「自律型エージェント」にあります。そのような中、Moonshot AIがKimi K3: Open Frontier Intelligenceを発表しました。2.8兆パラメータを持つこのモデルは、現在最大規模のオープンソースモデルです。単に規模を大きくしただけでなく、エージェントの実装におけるエンジニアリングの課題をアーキテクチャレベルで解決しようとしています。 MoE構造と100万トークンの長文脈 2.8兆パラメータを動作させるには、従来の高密度（Dense）モデルのままでは不可能です。Kimi K3は大規模混合専門家システム（MoE）アーキテクチャを採用しており、896の専門家（Experts）のうち、1回の計算で活性化されるのは16のみです。この極めてスパースなルーティング設計により、モデルの知識ベースを拡張しつつ推論計算量の爆発を回避し、前世代と比較して全体的な拡張効率を約2.5倍に向上させました。長文処理においては、Kimi Delta Attention (KDA) とアテンション残差（Attention Residuals, AttnRes）技術を組み合わせています。これにより、100万トークンのコンテキストウィンドウを維持しつつ、超長シーケンスや深いネットワーク間でも情報をスムーズに伝達できます。コードベース全体を処理する場合でも、数十の複雑な契約書を扱う場合でも、検索精度が容易に崩れることはありません。さらに、K3はネイティブなマルチモーダル設計を採用しています。独立した視覚エンコーダーを外付けするのではなく、テキスト、静止画像、動的動画を同一の隠れ空間に投影して統合処理します。画像出典: https://www.kimi.com/blog/kimi-k3 真の高度エンジニアリング力：コンパイラ構築からチップ設計まで Kimi K3の恐るべき点は、単純なPythonを書くことではなく、「ゼロから基盤を作る」能力にあります。長期間の自律研究において、公式の技術ブログによると、K3は48時間の自律稼働の中で、オープンソースのEDAツールと45nmプロセスを使用して、マイクロAIチップを自ら設計、最適化、検証しました。このチップはシミュレーション上で最大8,700トークン/秒のデコードスループットを実現し、複雑なマルチステップかつクロスツールなエンジニアリングタスクを実行する能力を証明しました。さらに、MiniTritonというGPUコンパイラをゼロから開発しました。このコンパイラは独自のIR層とPTXコード生成パイプラインを持ち、特定のワークロードでは業界主流のTritonコンパイラを上回る性能を発揮し、nanoGPTのエンドツーエンド訓練を安定してサポートします。科学自動化と「真」の視覚的閉ループネイティブなマルチモーダル設計により、Kimi K3は科学研究や視覚タスクで高い能力を発揮します。天体物理学のテストでは、K3は約2時間で20本以上の論文を読み、数値パイプラインを実装し、300以上の状態方程式を評価し、3000行以上のコードを書いて「I-Love-Q関係」の研究を再現しました。これは通常、人間の科学者が1〜2週間かかる作業です。視覚開発においては、真の「視覚的閉ループ（vision in the loop）」を実現できます。WebGPUを使用して3Dゲームのコードを書きながら、画面のスクリーンショットを直接「見て」エラーを修正し、動的な天候や3Dモデルを含むオープンワールドゲームを生成することができます。画像出典: https://www.kimi.com/blog/kimi-k3 オープンソース展開と究極のAPIコスト多くの企業にとって、2.8兆パラメータはVRAMを飲み込む底なし沼のように聞こえるでしょう。この巨大なモデルを支えるために、公式が推奨する導入環境は、64以上のアクセラレータを搭載したスーパーノード構成です。しかし、直接APIを利用する場合、Kimiの今回の価格設定は競合他社に多大なプレッシャーを与えています。KDAキャッシュ技術とMooncake分散推論アーキテクチャにより、キャッシュヒット率は90%以上に達します。これにより、キャッシュヒット時の入力価格は100万トークンあたりわずか0.30ドル（ミス時は3.00ドル、出力は15.00ドル）に抑えられました。画像出典: https://www.kimi.com/blog/kimi-k3 Kimi K3のリリースは、オープンソースモデルが規模において依然として巨大な拡張の余地があることを証明しました。極めてスパースなMoEアーキテクチャと超高キャッシュヒット率により、この2.8Tの巨獣は、現場で使えない実験室のおもちゃにはなりませんでした。複雑なエージェントを構築する開発者や企業にとって、本地デプロイとAPI呼び出しの新しい強力な選択肢を提供していることは疑いようがありません。 Q&A Q1：2.8兆パラメータは驚異的ですが、一般の開発者や中小企業には「手に負えない」ということですか？ A：「オンプレミスでのプライベートデプロイ」を前提とするなら、ハードルは非常に高く、64基以上のアクセラレータを搭載したスーパーノードが推奨されます。しかし、一般の開発者やスタートアップにとっての真の利益はAPI呼び出しにあります。KDAキャッシュ技術と分散推論アーキテクチャのおかげで、K3はコード関連タスクで90%以上のキャッシュヒット率を誇り、キャッシュヒット時の入力コストを100万トークンあたり0.30ドルまで抑えられます。つまり、極めて競争力のあるコストで、3Tクラスの高度な自律型エージェントを活用できるということです。 Q2：記事にある「外付け視覚エンコーダーなし」のネイティブマルチモーダルは、実際にはどのような利点がありますか？ A：従来のAIの視覚処理の多くは「継ぎ接ぎ」でした。独立した視覚モジュールで画像を「翻訳」して特徴量にし、それを言語モデルに渡すというプロセスで、細部が失われがちでした。Kimi K3は、テキスト、画像、動画を同じ隠れ空間に入れて統合処理するため、真の「視覚的閉ループ」が可能になります。例えば、3Dゲーム開発中に、人間エンジニアのようにレンダリング結果を見て直接デバッグや修正を行うことができ、ターミナルの文字エラーだけに依存する必要はありません。 Q3：48時間でチップを設計したり、ゼロからコンパイラを作ったりできるということは、シニアエンジニアに取って代わるということですか？ A：現在のところ、これらは極めて衝撃的な「概念実証（PoC）」の事例です。例えば、48時間で設計されたのは45nmプロセスに基づくマイクロチップのプロトタイプであり、MiniTritonコンパイラも特定のワークロードでは主流ツールを上回りますが、工業レベルのインフラを完全に置き換えるにはまだ距離があります。これらの実績の最大の意義は、AIが「単一のPythonスクリプトを書く」段階を超え、**「マルチステップ、クロスツール、長サイクル」**の低層ソフトウェア・ハードウェアエンジニアリングを処理する恐るべき実力を正式に備えたことを証明した点にあります。 Q4：K3を導入してAIエージェントを開発する場合、特に注意すべき制限はありますか？ A：公式技術レポートによると、K3は難しい長サイクルタスクを完遂するために、行動設計が非常に積極的になっています。そのため、曖昧な指示や小さなエラーに遭遇した際に、**「過度な積極性 (Excessive proactiveness)」**を示し、自動的に勝手な判断を下して実行し続けることがあります。そのため、K3エージェントをデプロイする際は、システムプロンプトで厳格な行動境界を設定し、その即興判断が本来の目的から逸脱しないように強く推奨します。

Jul 17, 2026 Read →

O …

tool

Ornith-1.0徹底解説：オープンソースのAgentic CodingモデルはいかにしてClaude Opusを凌駕したか？

プログラミングの新しい考え方：Ornith-1.0がいかにしてオープンソースのAgentic Coding開発を変えるのか DeepReinforceがリリースしたOrnith-1.0オープンソースモデルファミリーを探求します。本記事では、その独自のSelf-Scaffolding技術、不正防止メカニズム、そして商用AIモデルを凌駕するトップレベルのパフォーマンスで、いかにしてAgentic Coding開発の最優先ツールとなったのかを詳述します。ご存知ですか？商用クローズドソースAIがプログラミングコード生成技術を完全に独占したと誰もが思っていたその裏で、オープンソースコミュニティは密かに大きな反撃を準備していました。正直なところ、多くの開発者が今日直面している最大の痛点は、AIが単に数行のコードを補完することはできても、グローバルに「計画」する方法を知らないことでした。ここで特筆すべきなのが、DeepReinforceチームが立ち上げたOrnith-1.0モデルファミリーです。これは「エージェント型コーディング（Agentic Coding）」のために特別に構築されたオープンソースの大規模言語モデルです。少し距離感があるように聞こえるかもしれません。簡単に説明すると、AIが真のシニアソフトウェアエンジニアのように、自らツールを見つけ、戦略を立て、複雑な問題を解決する方法を学び始めたことを意味します。エッジデバイスからフラッグシップまで、常に最適な選択肢を Ornith-1.0は、Gemma 4とQwen 3.5をベースにしたポストトレーニングによって誕生しました。多様な開発コンテキストのニーズに応えるため、開発チームは9B-Dense、31B-Dense、35B-MoE、397B-MoEの4つのバージョンを一挙にリリースしました。一般のコンピューターでこれほど強力なAIを実行できるのか、という疑問はよくあります。軽量な9B-Denseバージョンは、エッジデバイスやシングルGPU環境専用に設計されています。サイズはコンパクトですが、その演算パフォーマンスは「上のクラスを倒す」もので、パラメーター数が多い同クラスの競合に簡単に追いつくことができます。つまり、一般的なローカル開発環境であっても、極めて高い自律プログラミング能力を所有できるということです。もちろん、究極の演算能力を追求する開発者にとって、ファミリーの長男である397B-MoEは間違いなくメインイベントです。このフラッグシップバージョンは、最大400Kの超長文コンテキストと複雑な論理推論のために設計されました。これは数多くのオープンソースのライバルを倒しただけでなく、複数の評価において驚くべき実力を示しました。モデルが自分で梯子をかける？自己改善のブラックテクノロジー従来の言語モデルのトレーニングは、通常、人間が事前に設計した固定フレームワークに極度に依存していました。人間がルールを与えれば、AIはその通りにするしかありません。これは実は、モデルが創造性を発揮する空間を制限していました。しかし、Ornith-1.0は全く異なる道を歩みました。それは「自己足場（Self-Scaffolding）」と呼ばれるトレーニングフレームワークを採用しています。困難なプログラミングタスクに直面したとき、モデルは自動的にガイド用の足場（Scaffold）を生成することを学び、その上で最終的な解決策を導き出します。例えるなら、プロの料理人が火を点けて料理をする前に、包丁を研ぎ、準備エリアとレシピを整理するようなものです。これらの準備作業と最終回答を共同最適化することで、モデルは自動的に完璧な解法パスへと進化し、面倒な実行論理を人間が事前に設計する必要が全くなくなりました。技術面では、これはGRPO最適化アルゴリズムと非同期強化学習の結合に依存しています。開発チームは巧妙に3段階の「古い重み関数（stale weight function）」を導入しました。学術的に聞こえるこの用語は、トレーニング過程で古い誤った決断がモデルを乱さないようにするためのものです。古いオフラインデータはシステムによって自動的に薄められ、モデルの更新が常に正しい軌道に乗っていることを保証します。 AIの「小賢しい振る舞い」を防ぐ3層の強固な防御ここで非常に興味深い問題があります。モデルが自分でフレームワークを設計できる能力を持つとき、高いスコアを取るために「不正」を働かないでしょうか？答えはイエスです。AIは時に非常にずる賢く、テストファイルを直接読み込んで期待される答えをハードコーディングしようとさえします。これが「報酬ハッキング（Reward Hacking）」です。この問題を未然に防ぐ方法は極めて厳しい仕様を作ることであるため、チームは3層の防御メカニズムを設計しました。第1層は外部環境とテストエリアを完全にロックする「絶対に変更不可の境界」で、モデルは自身のメモリ内で論理を最適化することしかできません。第2層は「決定論的モニター」です。これは試験会場の最も厳しい試験官のようなもので、モデルが制限されたファイルパスを読み取ろうとしたりスクリプトを改ざんしようとしたりしたことが発見されると、直ちに動作をブロックし、ゼロ点を与えます。最後の層は、凍結されたLLMジャッジの追加です。このジャッジは最終的な拒否権を持っており、モデルが本当に問題を解決しようとしているのか、それともシステムの抜け穴を突いているだけなのかを意味論的なレベルから判断できます。これら3つのロックを通じて、モデルのスコアの1点1点が本物であることを保証しています。データが語る、商用モデルを凌駕する実力の証明多くのテック愛好家は、無料のオープンソースモデルが、多額の投資でトレーニングされたクローズドソースの巨人に対抗できるのか、しばしば疑問に思います。実際の評価データを見てみましょう。フラッグシップモデルの397Bバージョンは、SWE-Bench Verifiedテストで82.4という高得点を叩き出しました。この成績は業界で有名なClaude Opus 4.7を直接上回るものです。また、長文推論タスクを処理する際にも極めて高い安定性を示しました。さらに、35B-MoEバージョンも演算効率の大幅な飛躍をもたらしました。相対的に極めて少ないアクティブパラメーター数で、自己足場技術のパフォーマンス向上における巨大なポテンシャルを証明しました。これは中堅企業であっても、より低いハードウェアコストでトップレベルのAI開発支援を享受できることを意味します。開発者にやさしいオープンソースエコシステムと実戦デプロイ最もエキサイティングなのは、Ornithシリーズ全体が極めて誠実なMITライセンスを採用しており、世界中で完全無料で地域使用制限がないことです。その威力を直接体験したい場合は、HuggingFaceのOrnith-1.0-397Bページから直接モデルリソースを取得できます。これは極めて高い推論能力を備えたツールです。返答時には、自動的に<think>タグの中に詳細な思考プロセスが生成されます。AIが複雑な問題をどのようにステップバイステップで分解しているかが明確に分かるため、開発者にとって非常に実用的です。vLLMやSGLangといったサーバーツールとの相性も抜群で、OpenHandsやHermesといった主流のエージェント開発フレームワークにシームレスに接続できます。以下は、モデルの推論チェーンと最終回答セクションを正しく解析する方法を示す、基本的なPythonデプロイ例です。 from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "deepreinforce-ai/Ornith-1.0-397B" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto") messages = [{"role": "user", "content": "Write a Python function is_prime(n)."}] text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) inputs = tokenizer(text, return_tensors="pt").to(model.device) # 生成を実行 output_ids = model.generate(**inputs, max_new_tokens=1024) response = tokenizer.decode(output_ids[0][inputs.input_ids.shape[1]:], skip_special_tokens=True) # <think>推論プロセスと回答ブロックを正確に分割 if "</think>" in response: reasoning, answer = response.split("</think>") reasoning = reasoning.replace("<think>", "").strip() answer = answer.strip() else: reasoning, answer = "", response.strip() print(f"推論チェーン: {reasoning}\n回答: {answer}") 結びの展望結論として、今回のリリースはオープンソースコミュニティ全体にとって強力な刺激となりました。これは単に強力な新しい言語モデルであるだけでなく、AIが自律的に問題を解決する方向へと向かう無限の可能性を具体的に示しました。

Jun 29, 2026 Read →

GLM-4.6 が新登場：Claude Sonnet に挑戦、コードと推論能力がさらに進化

5 つのコアアップグレード：GLM-4.6 の違いは？

パフォーマンス対決：GLM-4.6 はベンチマークテストでどのように機能しますか？

スコアだけじゃない：実世界でのコーディング実践

GLM-4.6 を使い始めるには？

videoweaver.app

DMflow.chat

DMflow.chat

videoweaver.app

DMflow.chat

DMflow.chat

Recommended for You

「Thinking Machines Inkling」とは？975Bオープンソース重み、マルチモーダルアーキテクチャ、技術解析

2.8兆パラメータのオープンソースモデル「Kimi K3」解析：MoEアーキテクチャ、エージェント能力、APIコスト

Ornith-1.0徹底解説：オープンソースのAgentic CodingモデルはいかにしてClaude Opusを凌駕したか？

Leaving Website