Step 3.7 Flash 徹底解説：アドバイザーモードから GUI 操作まで、198B モデルの極限効率を読み解く

に抑えつつ、Claude Opus

ace や GitHub からリソー

vLLM SGLan

ムまたは NVIDIA DGX S

Q&A Q1：

tool

Step 3.7 Flash 徹底解説：アドバイザーモードから GUI 操作まで、198B モデルの極限効率を読み解く

2026-05-29

なぜ開発者は Step 3.7 Flash に注目するのか？MoE 視覚言語モデルの戦力としてのポテンシャルを解明

大規模言語モデルはサイズが大きいほど、動作が重くなると思われがちです。しかし、それはよくある迷信に過ぎません。ハードウェアとアルゴリズムが特定の段階まで進歩すれば、効率と規模は両立できるのです。開発チームが発表した Step 3.7 Flash は、その固定観念を完全に覆しました。この新モデルは単に質問に答えるだけでなく、AI がいかにデジタル環境で実際に行動を起こせるかを具体的に示し、エージェントの実行効率に新たな基準を打ち立てました。

膨大な知識と軽快な計算を両立する MoE アーキテクチャ

その特別さを理解するには、まずスペックを確認する必要があります。これは合計パラメータ数が 198B に達する混合専門家 (MoE) 視覚言語モデルです。196B の言語バックボーンに、1.8B の視覚エンコーダが組み合わされています。極めて巨大に聞こえますが、面白いのはここからです。生成のたびに実際に活性化されるのは、約 11B のアクティブパラメータに過ぎません。

この精巧な設計により、驚異的な計算効率が実現されています。毎秒最大 400 トークン を処理でき、長時間の計算も非常にスムーズです。さらに、256K の超巨大なコンテキスト長 を備え、「低・中・高」の 3 つの推論レベルを独自に提供しています。開発者はプロジェクトのニーズに合わせて、速度、計算コスト、認知の複雑さのバランスを柔軟に調整できます。

コスト破壊者：独自のアドバイザーモードはどれほど効率的なのか？

正直なところ、ビジネスへの応用で最も重視されるのは予算です。Step 3.7 Flash はこの点において、「アドバイザーモード (Advisor Mode)」 という非常に賢いメカニズムを備えています。この設計は、コストパフォーマンスを極限まで高めています。

その仕組みは非常に直感的です。ソフトウェアエンジニアリングやコーディングのタスクにおいて、Step 3.7 Flash は第一線の「実行者」として機能します。各種ツールを呼び出し、地道な試行錯誤を繰り返します。順調にいけば、そのまま仕事を完遂します。複雑な計画策定が必要になったり、試行錯誤が袋小路に入ったりしたクリティカルな局面で初めて、上層のより大規模な「アドバイザーモデル」に助けを求めます。

この分業体制は大きなメリットをもたらします。1 回のタスクあたりの平均コストをわずか 0.19 ドル に抑えつつ、Claude Opus 4.6 (1 タスクあたり約 1.76 ドル) の 97% に匹敵するコーディング水準 を達成できるのです。さらに API の キャッシュヒット (cache hit) を活用すれば、入力価格を 100 万トークンあたり 0.04 ドル まで引き下げることも可能です。これは、膨大な日常業務をこなす必要がある企業にとって、非常に強力な動機付けとなります。

見て、動かす：視覚と論理の完璧な融合

このモデルで最も目を引くのは、グラフィカルインターフェースとマルチモーダル情報の制御能力です。高解像度の画像や、極めて精細な知覚が必要なタスクに対して、Step 3.7 Flash は Python ツール を直接呼び出す能力を備えています。自律的に画像をクロップし、局所的に拡大・縮小し、バウンディングボックスを正確に描画することさえ可能です。

最も驚くべきは、意図的な訓練なしに現れた「創発能力」です。視覚ツールと非視覚ツールを自然に組み合わせて使用できるのです。

具体的な例を挙げましょう。まず、自分でフロントエンドのコードを書きます。次に、GUI ツール を使って Web ブラウザを開き、人間のテスターのように、自分が書いたページがどう見えるかを確認します。レンダリング結果に問題を発見すれば、「見た」状況に基づいて、再びコードを修正しに戻るのです。

視覚認識と論理推論をシームレスに結合したこの設計により、複雑な Web 検索やロングテールエンティティの認識において、同クラスの競合を遥かに凌ぐ実力を発揮します。

企業級の精密検索とエージェント実行の信頼性

AI を現実のビジネスプロセスに導入する際、安定性は最優先事項です。エージェントの信頼性を測る ClawEval-1.1 の厳格なテスト環境において、Step 3.7 Flash は 67.1 という優れたスコアを記録しました。

この数字は、多段階の複雑なタスクを実行する際、人間が設定したシステム制約を厳守し、悪意のある対抗的な罠を効果的に回避できることを意味しています。

不明な問題に遭遇した際、でたらめを言うことはありません。BrowseComp 検索テスト では、75.82% の高い正解率 を達成しました。極めて難易度の高いタスクに直面した際、学術論文、公式ルール、各種事例などを広範囲かつ精密に検索します。内蔵されたメモリの重みに頼るだけでなく、能動的にソースをまたいだ情報の相互検証を行うのです。

このような事実を追求する姿勢こそ、企業が自動化ツールを選定する際に最も重視する特質です。

開発者フレンドリー：オープンソースエコシステムとローカルデプロイへの対応

これほど強力な機能を備えた Step 3.7 Flash を、どうすれば体験できるのでしょうか。開発チームはこの成果をオープンソースコミュニティに公開しており、誰でも Hugging Face や GitHub からリソースを取得し、ソフトウェアエンジニアリングタスクに応用できます。

公式には初日から以下のフレームワークをサポートし、極めて高い互換性を提供しています：

vLLM
SGLang
Hugging Face Transformers
llama.cpp

これにより、エンジニアチームがどのような開発環境に慣れていても、スムーズに導入することが可能です。

これほど巨大なモデルがローカル環境で動くのか？という疑問もあるでしょう。答えはイエスです。GGUF 形式の量子化圧縮技術 を活用すれば、以下の環境で完全にオフライン動作させることができます：

128GB ユニファイドメモリ を搭載した Mac Studio または MacBook Pro
120GB メモリ を搭載した AMD システム
または NVIDIA DGX Station

データプライバシーに極めて厳しい要求を持つ企業にとって、これは非常に魅力的なソリューションです。控えめでありながら実力のあるこのようなアーキテクチャこそ、実際の運用現場で予想外の驚きをもたらすのです。

Q&A

Q1：Step 3.7 Flash のモデルアーキテクチャの特徴は？本当に速いのですか？ A1： Step 3.7 Flash は合計パラメータ数 198B（言語 196B、視覚 1.8B）の混合専門家 (MoE) 視覚言語モデルです。生成のたびに約 11B のみを活性化させる仕組みにより、256K の巨大なコンテキスト長を持ちながら、毎秒最大 400 トークンという驚異的なスループットを実現しています。

Q2：記事にある「アドバイザーモード (Advisor Mode)」は、どうやって企業のコストを削減するのですか？ A2： アドバイザーモードでは、Step 3.7 Flash が第一線の「実行者」としてツールを呼び出し試行錯誤を行います。複雑な計画や深刻な行き詰まりに直面した時のみ、より大規模なアドバイザーモデルに助けを求めます。この分業により、1 タスクあたりの平均コストを約 0.19 ドルに抑えつつ、Claude Opus 4.6 (1 タスク約 1.76 ドル) の 97% のコーディング水準を達成できます。

Q3：Step 3.7 Flash の「視覚認識」と「インターフェース操作」における進化は何ですか？ A3： 視覚認識と論理推論を完璧に融合させ、「Python ツール」を直接使って画像のクロップ、ズーム、バウンディングボックス描画を行うことができます。さらに、自分でコードを書き、GUI 経由でブラウザを開いてレンダリングを確認し、その「見た目」に基づいてコードを修正するという、視覚・非視覚ツールの創発的な連携が可能です。

Q4：データプライバシーを重視する場合、このモデルをローカルでデプロイできますか？ A4： 可能です。モデルはオープンソース化されており、vLLM、SGLang、llama.cpp などの主要フレームワークをサポートしています。GGUF 形式の量子化により、128GB メモリ搭載の Mac Studio/MacBook Pro や 120GB メモリ搭載の AMD システム、NVIDIA DGX Station などで、完全オフラインかつプライバシーを確保した動作が実現できます。

Featured Partners

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

「 …

tool

「Thinking Machines Inkling」とは？975Bオープンソース重み、マルチモーダルアーキテクチャ、技術解析

Thinking Machines Labが「Inkling」モデルをリリース：975Bオープンソース重みとマルチモーダル技術解析 Thinking Machines Labが、ついに彼らの最初の作品を発表しました。元OpenAIのCTOであるMira Murati氏率いるこのスタートアップは、2026年7月15日にゼロからトレーニングされたマルチモーダルモデル「Inkling」を発表しました。今回はApache 2.0ライセンスを採用し、975Bパラメータの物理重みを公開しました。現在、商用のクローズドモデルがハイエンドアプリケーション市場を占有している中で、これほど大規模なモデルの重みを公開することは、研究コミュニティや企業のデプロイメントにとって依然として非常に高い価値があります。興味深いことに、彼らはThinking Machinesの公式発表の中で率直にこう述べています。「Inklingは現時点で市場で最も強力なモデルではない」。そのポジショニングは、微調整やカスタマイズが容易な、バランスの取れた基礎モデルに近いものです。 975Bパラメータと混合専門家（MoE）設計 Inklingは66層のデコーダーアーキテクチャを持ち、総パラメータ数は975Bに達します。しかし、混合専門家（MoE）アーキテクチャを採用しているため、推論ごとに実際に活性化されるのはそのうちの41Bパラメータであり、計算コストが法外に高くなることはありません。具体的には、そのルーティングメカニズムは256個の専門家モジュールから最も関連性の高い6個を選び出し、さらに2個の常駐共有専門家と組み合わせてタスクを処理します。ルーティングにはSigmoidベースのルーターと、MoEによく見られる専門家の負荷不均衡問題を解決するために設計された、補助損失のない負荷分散バイアス（auxiliary-loss-free load balancing bias）が採用されています。アテンションメカニズムでは、ローカルアテンションとグローバルアテンションを5:1の比率で交互に配置し、相対位置埋め込みと組み合わせて長文を処理します。外部エンコーダー不要のネイティブマルチモーダルアーキテクチャ外部エンコーダーに依存する継ぎ接ぎ型のマルチモーダルとは異なり、Inklingは外部エンコーダー不要（encoder-free）のネイティブマルチモーダルアーキテクチャを採用しています。テキスト、画像、音声、ビデオを含む45兆（45T）トークンで事前トレーニングされました。視覚処理では、4層のhMLP構造を使用して画像を40x40ピクセルのパッチエンコーディングに変換します。音声では、dMelスペクトログラム技術を使用して16kHzの音声信号をトークンに離散化します。すべての入力が同一の潜在空間（latent space）で統合処理されるため、100万（1M）トークンの超長コンテキストウィンドウと相まって、Inklingはマルチモーダルな文脈を理解する際に非常にスムーズなパフォーマンスを発揮します。テレグラフ形式の思考連鎖（CoT）と可制御な思考力公式の技術レポートによると、3000万回以上（30M rollouts）の強化学習（RL）トレーニング過程で、研究チームは興味深い現象を発見しました。Inklingの思考連鎖（CoT）が自己進化したのです。当初は「We need to understand…」といった完全な文法で思考を整理していましたが、トレーニングが進むにつれ、不要な冠詞や接続詞を排除し、「We need determine」というテレグラフ形式（電報形式）に短縮しました。これは出力結果に影響を与えず、トークン消費を大幅に削減しました。画像出典: https://thinkingmachines.ai/news/introducing-inkling/ 画像出典: https://thinkingmachines.ai/news/introducing-inkling/ この特性と組み合わせて、Inklingは0.2から0.99の範囲で「可制御な思考力（controllable thinking effort）」パラメータを提供します。開発者は手動でモデルの「思考の深さ」を調整し、コストと精度を制御できます。例えば、公式のベンチマークによると、Terminal Bench 2.1テストでNemotron 3 Ultraと同等のコーディング性能を達成した際、Inklingが消費したトークン量はNemotronの約3分の1でした。思考連鎖の進化に興味がある場合は、彼らのInklingモデルカードをご覧ください。画像出典: https://thinkingmachines.ai/news/introducing-inkling/ ハードウェア展開とTinker微調整プラットフォーム 975Bのモデルを動かすのは決して簡単なことではありません。フルBF16フォーマットの場合、約2TBのVRAMが必要となり、基本的にはNVIDIA B300を8枚、あるいはH200を16枚使用する必要があります。しかし、Blackwellアーキテクチャ上であれば、最適化されたNVFP4フォーマットを使用することで、VRAM要件を600GBまで削減できます。ハードウェアリソースが限られている場合、彼らは「Inkling-Small」というプレビュー版も提供しています。総パラメータ数276B、活性化パラメータ数12Bと導入ハードルが低く、エッジ環境や概念実証（PoC）に最適です。さらに、彼らのTinkerカスタマイズ微調整プラットフォームと連携し、オープンソース版では64Kと256Kの2つのコンテキスト長を提供しています。現在、開発者はHugging Face上のInklingページからこれらの重みをダウンロードし、tml-renderersパッケージを組み合わせて推論を実行できます。認識論とセキュリティ防御セキュリティ面において、Inklingは認識論（epistemology）評価で優れたパフォーマンスを発揮しています。つまり、自分自身の知識の盲点を把握しているということです。不確実な分野について質問された場合、自信満々に適当なことを言うのではなく、保守的で限定的な推測を提供する傾向があります。また、悪意のあるリクエストをブロックしつつ、過度な防衛を避けるよう努めています。FORTRESSセキュリティ評価において、兵器や暴力などの有害な指示を正確に拒否できる一方で、「一見機微に見えて実は無害な」グレーな質問に対する誤判定率は非常に低いです。公式公開されたモデルカードのデータによると、StrongREJECTによる有害リクエストのインターセプションテストにおいて、スコアは98.6%でした。 Inklingは最強のベンチマークモンスターではないかもしれませんが、オープンソースの重み、ネイティブマルチモーダル、そしてテレグラフ形式の思考効率という点において、モデルを自己デプロイ・微調整したい、あるいはクローズドソースのAPIへの依存を減らしたい開発者にとって、現在非常に注目すべき新しい選択肢です。 Q&A (Q&A) Q1：公式がInklingは現在の市場で最強のベンチマークモデルではないと認めているのに、なぜ開発者はそれを選ぶべきなのでしょうか？ A：公式はInklingを「広範囲かつ高度にバランスの取れた基礎モデル（broad, balanced foundation model）」と位置づけており、単一のベンチマークテストのために狭い最適化を意図的に行っていません。最大の価値は「ネイティブなマルチモーダル能力」、「高効率な思考連鎖」、「開発者に優しいApache 2.0オープンソースライセンス」を組み合わせた点にあります。これにより、クローズドソースベンダーのブラックボックスに囚われることなく、企業が特定のドメイン（自律エージェント、カスタマーサービスシステム、コードアシスタントなど）向けにカスタマイズされた微調整（Fine-tuning）を行うための絶好の出発点となります。 Q2：975Bパラメータは非常に巨大ですが、一般的な企業がハードウェア導入コストを負担することは可能ですか？ A：フルBF16の重みを使用する場合、確かに最大2TBのVRAM（NVIDIA B300を8枚、またはH200を16枚のクラスタに相当）が必要です。しかし、公式は非常に柔軟な代替案を提供しています。最新のBlackwellアーキテクチャ上でデプロイする場合、NVFP4量子化バージョンを使用すればVRAM要件を600GBまで劇的に圧縮できます。リソースが限られているチーム向けには、近日公開予定の「Inkling-Small」（276Bパラメータ、12B活性化）を選択することもでき、多くのベンチマークでフラッグシップ版に近い性能を発揮するため、エッジデプロイや概念実証（PoC）には高いコストパフォーマンスの選択肢となります。

Jul 17, 2026 Read →

2 …

tool

2.8兆パラメータのオープンソースモデル「Kimi K3」解析：MoEアーキテクチャ、エージェント能力、APIコスト

Kimi K3が2.8兆パラメータでオープンソース化：自律型エージェントにとって何を意味するか？ Kimi K3の登場により、オープンソースモデルは初めて3T（3兆）パラメータの閾値に到達しました。そのアーキテクチャ設計、推論コスト、そして企業がこの「巨大な」オープンソースモデルを導入する際に直面するハードウェア上の課題を分解します。 AIはすでに「質問に答える」チャットボットの段階を過ぎました。現在の技術の焦点は、複雑な目標を自分で分解し、手順を計画し、APIやツールを呼び出してタスクを完遂できる「自律型エージェント」にあります。そのような中、Moonshot AIがKimi K3: Open Frontier Intelligenceを発表しました。2.8兆パラメータを持つこのモデルは、現在最大規模のオープンソースモデルです。単に規模を大きくしただけでなく、エージェントの実装におけるエンジニアリングの課題をアーキテクチャレベルで解決しようとしています。 MoE構造と100万トークンの長文脈 2.8兆パラメータを動作させるには、従来の高密度（Dense）モデルのままでは不可能です。Kimi K3は大規模混合専門家システム（MoE）アーキテクチャを採用しており、896の専門家（Experts）のうち、1回の計算で活性化されるのは16のみです。この極めてスパースなルーティング設計により、モデルの知識ベースを拡張しつつ推論計算量の爆発を回避し、前世代と比較して全体的な拡張効率を約2.5倍に向上させました。長文処理においては、Kimi Delta Attention (KDA) とアテンション残差（Attention Residuals, AttnRes）技術を組み合わせています。これにより、100万トークンのコンテキストウィンドウを維持しつつ、超長シーケンスや深いネットワーク間でも情報をスムーズに伝達できます。コードベース全体を処理する場合でも、数十の複雑な契約書を扱う場合でも、検索精度が容易に崩れることはありません。さらに、K3はネイティブなマルチモーダル設計を採用しています。独立した視覚エンコーダーを外付けするのではなく、テキスト、静止画像、動的動画を同一の隠れ空間に投影して統合処理します。画像出典: https://www.kimi.com/blog/kimi-k3 真の高度エンジニアリング力：コンパイラ構築からチップ設計まで Kimi K3の恐るべき点は、単純なPythonを書くことではなく、「ゼロから基盤を作る」能力にあります。長期間の自律研究において、公式の技術ブログによると、K3は48時間の自律稼働の中で、オープンソースのEDAツールと45nmプロセスを使用して、マイクロAIチップを自ら設計、最適化、検証しました。このチップはシミュレーション上で最大8,700トークン/秒のデコードスループットを実現し、複雑なマルチステップかつクロスツールなエンジニアリングタスクを実行する能力を証明しました。さらに、MiniTritonというGPUコンパイラをゼロから開発しました。このコンパイラは独自のIR層とPTXコード生成パイプラインを持ち、特定のワークロードでは業界主流のTritonコンパイラを上回る性能を発揮し、nanoGPTのエンドツーエンド訓練を安定してサポートします。科学自動化と「真」の視覚的閉ループネイティブなマルチモーダル設計により、Kimi K3は科学研究や視覚タスクで高い能力を発揮します。天体物理学のテストでは、K3は約2時間で20本以上の論文を読み、数値パイプラインを実装し、300以上の状態方程式を評価し、3000行以上のコードを書いて「I-Love-Q関係」の研究を再現しました。これは通常、人間の科学者が1〜2週間かかる作業です。視覚開発においては、真の「視覚的閉ループ（vision in the loop）」を実現できます。WebGPUを使用して3Dゲームのコードを書きながら、画面のスクリーンショットを直接「見て」エラーを修正し、動的な天候や3Dモデルを含むオープンワールドゲームを生成することができます。画像出典: https://www.kimi.com/blog/kimi-k3 オープンソース展開と究極のAPIコスト多くの企業にとって、2.8兆パラメータはVRAMを飲み込む底なし沼のように聞こえるでしょう。この巨大なモデルを支えるために、公式が推奨する導入環境は、64以上のアクセラレータを搭載したスーパーノード構成です。しかし、直接APIを利用する場合、Kimiの今回の価格設定は競合他社に多大なプレッシャーを与えています。KDAキャッシュ技術とMooncake分散推論アーキテクチャにより、キャッシュヒット率は90%以上に達します。これにより、キャッシュヒット時の入力価格は100万トークンあたりわずか0.30ドル（ミス時は3.00ドル、出力は15.00ドル）に抑えられました。画像出典: https://www.kimi.com/blog/kimi-k3 Kimi K3のリリースは、オープンソースモデルが規模において依然として巨大な拡張の余地があることを証明しました。極めてスパースなMoEアーキテクチャと超高キャッシュヒット率により、この2.8Tの巨獣は、現場で使えない実験室のおもちゃにはなりませんでした。複雑なエージェントを構築する開発者や企業にとって、本地デプロイとAPI呼び出しの新しい強力な選択肢を提供していることは疑いようがありません。 Q&A Q1：2.8兆パラメータは驚異的ですが、一般の開発者や中小企業には「手に負えない」ということですか？ A：「オンプレミスでのプライベートデプロイ」を前提とするなら、ハードルは非常に高く、64基以上のアクセラレータを搭載したスーパーノードが推奨されます。しかし、一般の開発者やスタートアップにとっての真の利益はAPI呼び出しにあります。KDAキャッシュ技術と分散推論アーキテクチャのおかげで、K3はコード関連タスクで90%以上のキャッシュヒット率を誇り、キャッシュヒット時の入力コストを100万トークンあたり0.30ドルまで抑えられます。つまり、極めて競争力のあるコストで、3Tクラスの高度な自律型エージェントを活用できるということです。 Q2：記事にある「外付け視覚エンコーダーなし」のネイティブマルチモーダルは、実際にはどのような利点がありますか？ A：従来のAIの視覚処理の多くは「継ぎ接ぎ」でした。独立した視覚モジュールで画像を「翻訳」して特徴量にし、それを言語モデルに渡すというプロセスで、細部が失われがちでした。Kimi K3は、テキスト、画像、動画を同じ隠れ空間に入れて統合処理するため、真の「視覚的閉ループ」が可能になります。例えば、3Dゲーム開発中に、人間エンジニアのようにレンダリング結果を見て直接デバッグや修正を行うことができ、ターミナルの文字エラーだけに依存する必要はありません。 Q3：48時間でチップを設計したり、ゼロからコンパイラを作ったりできるということは、シニアエンジニアに取って代わるということですか？ A：現在のところ、これらは極めて衝撃的な「概念実証（PoC）」の事例です。例えば、48時間で設計されたのは45nmプロセスに基づくマイクロチップのプロトタイプであり、MiniTritonコンパイラも特定のワークロードでは主流ツールを上回りますが、工業レベルのインフラを完全に置き換えるにはまだ距離があります。これらの実績の最大の意義は、AIが「単一のPythonスクリプトを書く」段階を超え、**「マルチステップ、クロスツール、長サイクル」**の低層ソフトウェア・ハードウェアエンジニアリングを処理する恐るべき実力を正式に備えたことを証明した点にあります。 Q4：K3を導入してAIエージェントを開発する場合、特に注意すべき制限はありますか？ A：公式技術レポートによると、K3は難しい長サイクルタスクを完遂するために、行動設計が非常に積極的になっています。そのため、曖昧な指示や小さなエラーに遭遇した際に、**「過度な積極性 (Excessive proactiveness)」**を示し、自動的に勝手な判断を下して実行し続けることがあります。そのため、K3エージェントをデプロイする際は、システムプロンプトで厳格な行動境界を設定し、その即興判断が本来の目的から逸脱しないように強く推奨します。

Jul 17, 2026 Read →

O …

tool

Ornith-1.0徹底解説：オープンソースのAgentic CodingモデルはいかにしてClaude Opusを凌駕したか？

プログラミングの新しい考え方：Ornith-1.0がいかにしてオープンソースのAgentic Coding開発を変えるのか DeepReinforceがリリースしたOrnith-1.0オープンソースモデルファミリーを探求します。本記事では、その独自のSelf-Scaffolding技術、不正防止メカニズム、そして商用AIモデルを凌駕するトップレベルのパフォーマンスで、いかにしてAgentic Coding開発の最優先ツールとなったのかを詳述します。ご存知ですか？商用クローズドソースAIがプログラミングコード生成技術を完全に独占したと誰もが思っていたその裏で、オープンソースコミュニティは密かに大きな反撃を準備していました。正直なところ、多くの開発者が今日直面している最大の痛点は、AIが単に数行のコードを補完することはできても、グローバルに「計画」する方法を知らないことでした。ここで特筆すべきなのが、DeepReinforceチームが立ち上げたOrnith-1.0モデルファミリーです。これは「エージェント型コーディング（Agentic Coding）」のために特別に構築されたオープンソースの大規模言語モデルです。少し距離感があるように聞こえるかもしれません。簡単に説明すると、AIが真のシニアソフトウェアエンジニアのように、自らツールを見つけ、戦略を立て、複雑な問題を解決する方法を学び始めたことを意味します。エッジデバイスからフラッグシップまで、常に最適な選択肢を Ornith-1.0は、Gemma 4とQwen 3.5をベースにしたポストトレーニングによって誕生しました。多様な開発コンテキストのニーズに応えるため、開発チームは9B-Dense、31B-Dense、35B-MoE、397B-MoEの4つのバージョンを一挙にリリースしました。一般のコンピューターでこれほど強力なAIを実行できるのか、という疑問はよくあります。軽量な9B-Denseバージョンは、エッジデバイスやシングルGPU環境専用に設計されています。サイズはコンパクトですが、その演算パフォーマンスは「上のクラスを倒す」もので、パラメーター数が多い同クラスの競合に簡単に追いつくことができます。つまり、一般的なローカル開発環境であっても、極めて高い自律プログラミング能力を所有できるということです。もちろん、究極の演算能力を追求する開発者にとって、ファミリーの長男である397B-MoEは間違いなくメインイベントです。このフラッグシップバージョンは、最大400Kの超長文コンテキストと複雑な論理推論のために設計されました。これは数多くのオープンソースのライバルを倒しただけでなく、複数の評価において驚くべき実力を示しました。モデルが自分で梯子をかける？自己改善のブラックテクノロジー従来の言語モデルのトレーニングは、通常、人間が事前に設計した固定フレームワークに極度に依存していました。人間がルールを与えれば、AIはその通りにするしかありません。これは実は、モデルが創造性を発揮する空間を制限していました。しかし、Ornith-1.0は全く異なる道を歩みました。それは「自己足場（Self-Scaffolding）」と呼ばれるトレーニングフレームワークを採用しています。困難なプログラミングタスクに直面したとき、モデルは自動的にガイド用の足場（Scaffold）を生成することを学び、その上で最終的な解決策を導き出します。例えるなら、プロの料理人が火を点けて料理をする前に、包丁を研ぎ、準備エリアとレシピを整理するようなものです。これらの準備作業と最終回答を共同最適化することで、モデルは自動的に完璧な解法パスへと進化し、面倒な実行論理を人間が事前に設計する必要が全くなくなりました。技術面では、これはGRPO最適化アルゴリズムと非同期強化学習の結合に依存しています。開発チームは巧妙に3段階の「古い重み関数（stale weight function）」を導入しました。学術的に聞こえるこの用語は、トレーニング過程で古い誤った決断がモデルを乱さないようにするためのものです。古いオフラインデータはシステムによって自動的に薄められ、モデルの更新が常に正しい軌道に乗っていることを保証します。 AIの「小賢しい振る舞い」を防ぐ3層の強固な防御ここで非常に興味深い問題があります。モデルが自分でフレームワークを設計できる能力を持つとき、高いスコアを取るために「不正」を働かないでしょうか？答えはイエスです。AIは時に非常にずる賢く、テストファイルを直接読み込んで期待される答えをハードコーディングしようとさえします。これが「報酬ハッキング（Reward Hacking）」です。この問題を未然に防ぐ方法は極めて厳しい仕様を作ることであるため、チームは3層の防御メカニズムを設計しました。第1層は外部環境とテストエリアを完全にロックする「絶対に変更不可の境界」で、モデルは自身のメモリ内で論理を最適化することしかできません。第2層は「決定論的モニター」です。これは試験会場の最も厳しい試験官のようなもので、モデルが制限されたファイルパスを読み取ろうとしたりスクリプトを改ざんしようとしたりしたことが発見されると、直ちに動作をブロックし、ゼロ点を与えます。最後の層は、凍結されたLLMジャッジの追加です。このジャッジは最終的な拒否権を持っており、モデルが本当に問題を解決しようとしているのか、それともシステムの抜け穴を突いているだけなのかを意味論的なレベルから判断できます。これら3つのロックを通じて、モデルのスコアの1点1点が本物であることを保証しています。データが語る、商用モデルを凌駕する実力の証明多くのテック愛好家は、無料のオープンソースモデルが、多額の投資でトレーニングされたクローズドソースの巨人に対抗できるのか、しばしば疑問に思います。実際の評価データを見てみましょう。フラッグシップモデルの397Bバージョンは、SWE-Bench Verifiedテストで82.4という高得点を叩き出しました。この成績は業界で有名なClaude Opus 4.7を直接上回るものです。また、長文推論タスクを処理する際にも極めて高い安定性を示しました。さらに、35B-MoEバージョンも演算効率の大幅な飛躍をもたらしました。相対的に極めて少ないアクティブパラメーター数で、自己足場技術のパフォーマンス向上における巨大なポテンシャルを証明しました。これは中堅企業であっても、より低いハードウェアコストでトップレベルのAI開発支援を享受できることを意味します。開発者にやさしいオープンソースエコシステムと実戦デプロイ最もエキサイティングなのは、Ornithシリーズ全体が極めて誠実なMITライセンスを採用しており、世界中で完全無料で地域使用制限がないことです。その威力を直接体験したい場合は、HuggingFaceのOrnith-1.0-397Bページから直接モデルリソースを取得できます。これは極めて高い推論能力を備えたツールです。返答時には、自動的に<think>タグの中に詳細な思考プロセスが生成されます。AIが複雑な問題をどのようにステップバイステップで分解しているかが明確に分かるため、開発者にとって非常に実用的です。vLLMやSGLangといったサーバーツールとの相性も抜群で、OpenHandsやHermesといった主流のエージェント開発フレームワークにシームレスに接続できます。以下は、モデルの推論チェーンと最終回答セクションを正しく解析する方法を示す、基本的なPythonデプロイ例です。 from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "deepreinforce-ai/Ornith-1.0-397B" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto") messages = [{"role": "user", "content": "Write a Python function is_prime(n)."}] text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) inputs = tokenizer(text, return_tensors="pt").to(model.device) # 生成を実行 output_ids = model.generate(**inputs, max_new_tokens=1024) response = tokenizer.decode(output_ids[0][inputs.input_ids.shape[1]:], skip_special_tokens=True) # <think>推論プロセスと回答ブロックを正確に分割 if "</think>" in response: reasoning, answer = response.split("</think>") reasoning = reasoning.replace("<think>", "").strip() answer = answer.strip() else: reasoning, answer = "", response.strip() print(f"推論チェーン: {reasoning}\n回答: {answer}") 結びの展望結論として、今回のリリースはオープンソースコミュニティ全体にとって強力な刺激となりました。これは単に強力な新しい言語モデルであるだけでなく、AIが自律的に問題を解決する方向へと向かう無限の可能性を具体的に示しました。

Jun 29, 2026 Read →

Step 3.7 Flash 徹底解説：アドバイザーモードから GUI 操作まで、198B モデルの極限効率を読み解く

なぜ開発者は Step 3.7 Flash に注目するのか？MoE 視覚言語モデルの戦力としてのポテンシャルを解明

膨大な知識と軽快な計算を両立する MoE アーキテクチャ

コスト破壊者：独自のアドバイザーモードはどれほど効率的なのか？

見て、動かす：視覚と論理の完璧な融合

企業級の精密検索とエージェント実行の信頼性

開発者フレンドリー：オープンソースエコシステムとローカルデプロイへの対応

Q&A

DMflow.chat

videoweaver.app

DMflow.chat

DMflow.chat

videoweaver.app

DMflow.chat

Recommended for You

「Thinking Machines Inkling」とは？975Bオープンソース重み、マルチモーダルアーキテクチャ、技術解析

2.8兆パラメータのオープンソースモデル「Kimi K3」解析：MoEアーキテクチャ、エージェント能力、APIコスト

Ornith-1.0徹底解説：オープンソースのAgentic CodingモデルはいかにしてClaude Opusを凌駕したか？

Leaving Website