H100たった2枚で動作！Cohereのオープンソース企業向け大規模モデル「Command A+」徹底解説

2枚で動作！Cohereのオープンソ

わずか2枚のNVIDIA H100

Q&A：なぜこ

tool

H100たった2枚で動作！Cohereのオープンソース企業向け大規模モデル「Command A+」徹底解説

2026-05-21

H100たった2枚で動作！Cohereのオープンソース企業向け大規模モデル「Command A+」徹底解説

多くの企業がAI導入に際して、高額なハードウェアコストとプライバシーへの懸念という大きな壁に直面しています。Cohereが新たにリリースした混合専門家（MoE）モデル「Command A+」は、2180億のパラメータと極めて低いハードウェア要件を両立。開発チームに真のデータ主権と強力なエージェント・ワークフロー体験をもたらします。

今日のビジネス環境において、業務効率を高めるために大規模言語モデルを導入しようとしない組織はほとんどありません。しかし、その背後には残酷な現実が隠されています。強力なモデルを利用するには、機密データを外部のクラウドサーバーにアップロードする必要があり、データ漏洩の深刻な懸念が生じるのです。また、オンプレミス（自社運用）を選択したとしても、ハイエンドなGPUコンピューティングセンターを構築するための膨大なコストが開発チームを悩ませます。

正直なところ、計算能力とプライバシーの板挟み状態に、CTOやIT管理者は疲れ果てています。この苦境を解決するために、ビジネス向けソリューションに特化したCohereチームは、同社史上最速かつ最高性能の言語モデル「Command A+」を正式に発表しました。このモデルは、完全に無料のApache 2.0ライセンスでオープンソースとして公開されています。「主権AI（Sovereign AI）」という設計理念を掲げ、極めて低予算で、最高レベルの推論能力を持つエージェント・アシスタントを自社サーバー内に完全にデプロイすることを可能にします。

膨大なパラメータと軽量な計算の完璧なバランス

最高峰の大規模言語モデルと聞けば、「ハードウェア要件も相当高いのでは？」と思うかもしれません。それこそが、Command A+が技術的なブレイクスルーを示したポイントです。このモデルは「混合専門家（Mixture-of-Experts：MoE）アーキテクチャ」と呼ばれる特殊な設計を採用しています。総パラメータ数は2180億（218B）に達し、あらゆる専門的なタスクを処理するための膨大な知識ベースを備えています。しかし、計算を実行するたびにインテリジェントに動作するのは、そのうちの250億（25B）のアクティブ・パラメータのみです。

一見矛盾するようなこの設計により、計算効率は極限まで高められています。Cohere公式が公開したテストデータによると、W4A4量子化技術を併用することで、Command A+はわずか2枚のNVIDIA H100 GPUでスムーズに動作します。

また、開発チームはMoEアーキテクチャ向けに「投機的デコーディング（Speculative Decoding）」技術を最適化し、テキストおよびマルチモーダル入力の推論速度をさらに1.5〜1.6倍向上させました。これにより、中小規模の開発チームでも高額なハードウェアコストに縛られることなく、インフラ構築を容易に行えるようになります。

複雑なエージェント・タスクのために設計された「スーパー頭脳」

Command A+は、日常の雑談を楽しむだけのチャットボットではなく、複雑なワークフローのために綿密に設計された企業の主力ツールです。128Kの入力コンテキスト長と、驚異の64Kという最大生成長を備え、テキスト、画像、ツール呼び出し（Tool use）などのマルチモーダル入力をサポートしています。

実際のビジネスシーンにおいて、そのパフォーマンスは前世代のモデルを遥かに凌駕しています。以下は、注目すべき性能向上のポイントです：

エージェント形式の質問回答（Agentic Question Answering）の正解率テストで、全体的なパフォーマンスが20%向上。
煩雑なスプレッドシートのデータ分析タスクにおいて、処理能力が32%向上。
対話と保存データにわたる「メモリ使用品質」テストで54%という高スコアを記録（前世代モデルは39%）。

これは、Command A+が検索拡張生成（RAG）やクロスプラットフォームのデータ分析といった高度なビジネス・タスクを完璧にこなせることを意味します。開発者は、長大な財務諸表をモデルに読み込ませ、重要なデータを細部まで漏らすことなく正確に抽出させることができます。

多言語サポートが組織の予算を大幅に削減する理由

グローバルに展開する企業にとって、多言語対応能力は不可欠な要素です。Command A+は、対応言語を従来の23言語から一気に48言語へと拡大しました。

さらに、開発チームは新たに設計された「トークナイザー（Tokenizer）」を搭載しました。この設計により、回答生成に必要なトークン数が大幅に圧縮されています。これは非ヨーロッパ言語のユーザーにとって大きな恩恵となります。具体的なデータによると、アラビア語のトークン化効率は20%向上、日本語は18%向上、韓国語も16%向上しました。

ここで重要な詳細があります。トークン数が少なくて済むということは、システムがこれらの言語を処理する際、計算速度が上がるだけでなく、API推論コストも実質的に削減されることを意味します。これにより、グローバル展開するチームは、より少ないリソースで世界中の顧客にサービスを提供できるようになります。

Q&A：なぜこれほど強力なモデルを完全にオープンソース化したのか？

多くの開発者がフォーラムで、「これほど大きな商業的可能性を秘めたモデルを、なぜCohereチームはApache 2.0ライセンスで完全にオープンソース化したのか？」と質問しています。

主な理由は、実用性を極限まで重視している点にあります。中核となる研究開発チームは、小規模なチームや独立系デベロッパーが何の障壁もなくこれらのツールを使用して、高度なエージェント・アプリケーションを構築できるようにしたいと考えています。オープンソース・コミュニティからのリアルなフィードバックは、しばしば予期せぬイノベーションを呼び起こします。このようなオープンなエコシステムは、モデルと製品が将来にわたってより堅実に成長するのを助けます。

ユーザー自身がモデルを実行し、制御し、適応させることができるようにすることは、今日の技術開発において最も差し迫った課題の一つです。Command A+の誕生は、すべての人がAIの独立性を手にすることができるという素晴らしいビジョンを実現するためのものです。

現在、Hugging Faceのモデルライブラリから、16-bit (BF16)、8-bit (FP8)、4-bit (W4A4) など、実用的な各種フォーマットのCommand A+の重みデータを直接ダウンロードできます。もし貴社が、最高レベルの推論能力と多言語サポートを兼ね備え、かつオンプレミスで低コストに動作するサーバー用頭脳を探しているなら、Command A+は間違いなく今すぐテストすべき最良の選択肢です。

Featured Partners

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

Recommended for You

「 …

tool

「Thinking Machines Inkling」とは？975Bオープンソース重み、マルチモーダルアーキテクチャ、技術解析

Thinking Machines Labが「Inkling」モデルをリリース：975Bオープンソース重みとマルチモーダル技術解析 Thinking Machines Labが、ついに彼らの最初の作品を発表しました。元OpenAIのCTOであるMira Murati氏率いるこのスタートアップは、2026年7月15日にゼロからトレーニングされたマルチモーダルモデル「Inkling」を発表しました。今回はApache 2.0ライセンスを採用し、975Bパラメータの物理重みを公開しました。現在、商用のクローズドモデルがハイエンドアプリケーション市場を占有している中で、これほど大規模なモデルの重みを公開することは、研究コミュニティや企業のデプロイメントにとって依然として非常に高い価値があります。興味深いことに、彼らはThinking Machinesの公式発表の中で率直にこう述べています。「Inklingは現時点で市場で最も強力なモデルではない」。そのポジショニングは、微調整やカスタマイズが容易な、バランスの取れた基礎モデルに近いものです。 975Bパラメータと混合専門家（MoE）設計 Inklingは66層のデコーダーアーキテクチャを持ち、総パラメータ数は975Bに達します。しかし、混合専門家（MoE）アーキテクチャを採用しているため、推論ごとに実際に活性化されるのはそのうちの41Bパラメータであり、計算コストが法外に高くなることはありません。具体的には、そのルーティングメカニズムは256個の専門家モジュールから最も関連性の高い6個を選び出し、さらに2個の常駐共有専門家と組み合わせてタスクを処理します。ルーティングにはSigmoidベースのルーターと、MoEによく見られる専門家の負荷不均衡問題を解決するために設計された、補助損失のない負荷分散バイアス（auxiliary-loss-free load balancing bias）が採用されています。アテンションメカニズムでは、ローカルアテンションとグローバルアテンションを5:1の比率で交互に配置し、相対位置埋め込みと組み合わせて長文を処理します。外部エンコーダー不要のネイティブマルチモーダルアーキテクチャ外部エンコーダーに依存する継ぎ接ぎ型のマルチモーダルとは異なり、Inklingは外部エンコーダー不要（encoder-free）のネイティブマルチモーダルアーキテクチャを採用しています。テキスト、画像、音声、ビデオを含む45兆（45T）トークンで事前トレーニングされました。視覚処理では、4層のhMLP構造を使用して画像を40x40ピクセルのパッチエンコーディングに変換します。音声では、dMelスペクトログラム技術を使用して16kHzの音声信号をトークンに離散化します。すべての入力が同一の潜在空間（latent space）で統合処理されるため、100万（1M）トークンの超長コンテキストウィンドウと相まって、Inklingはマルチモーダルな文脈を理解する際に非常にスムーズなパフォーマンスを発揮します。テレグラフ形式の思考連鎖（CoT）と可制御な思考力公式の技術レポートによると、3000万回以上（30M rollouts）の強化学習（RL）トレーニング過程で、研究チームは興味深い現象を発見しました。Inklingの思考連鎖（CoT）が自己進化したのです。当初は「We need to understand…」といった完全な文法で思考を整理していましたが、トレーニングが進むにつれ、不要な冠詞や接続詞を排除し、「We need determine」というテレグラフ形式（電報形式）に短縮しました。これは出力結果に影響を与えず、トークン消費を大幅に削減しました。画像出典: https://thinkingmachines.ai/news/introducing-inkling/ 画像出典: https://thinkingmachines.ai/news/introducing-inkling/ この特性と組み合わせて、Inklingは0.2から0.99の範囲で「可制御な思考力（controllable thinking effort）」パラメータを提供します。開発者は手動でモデルの「思考の深さ」を調整し、コストと精度を制御できます。例えば、公式のベンチマークによると、Terminal Bench 2.1テストでNemotron 3 Ultraと同等のコーディング性能を達成した際、Inklingが消費したトークン量はNemotronの約3分の1でした。思考連鎖の進化に興味がある場合は、彼らのInklingモデルカードをご覧ください。画像出典: https://thinkingmachines.ai/news/introducing-inkling/ ハードウェア展開とTinker微調整プラットフォーム 975Bのモデルを動かすのは決して簡単なことではありません。フルBF16フォーマットの場合、約2TBのVRAMが必要となり、基本的にはNVIDIA B300を8枚、あるいはH200を16枚使用する必要があります。しかし、Blackwellアーキテクチャ上であれば、最適化されたNVFP4フォーマットを使用することで、VRAM要件を600GBまで削減できます。ハードウェアリソースが限られている場合、彼らは「Inkling-Small」というプレビュー版も提供しています。総パラメータ数276B、活性化パラメータ数12Bと導入ハードルが低く、エッジ環境や概念実証（PoC）に最適です。さらに、彼らのTinkerカスタマイズ微調整プラットフォームと連携し、オープンソース版では64Kと256Kの2つのコンテキスト長を提供しています。現在、開発者はHugging Face上のInklingページからこれらの重みをダウンロードし、tml-renderersパッケージを組み合わせて推論を実行できます。認識論とセキュリティ防御セキュリティ面において、Inklingは認識論（epistemology）評価で優れたパフォーマンスを発揮しています。つまり、自分自身の知識の盲点を把握しているということです。不確実な分野について質問された場合、自信満々に適当なことを言うのではなく、保守的で限定的な推測を提供する傾向があります。また、悪意のあるリクエストをブロックしつつ、過度な防衛を避けるよう努めています。FORTRESSセキュリティ評価において、兵器や暴力などの有害な指示を正確に拒否できる一方で、「一見機微に見えて実は無害な」グレーな質問に対する誤判定率は非常に低いです。公式公開されたモデルカードのデータによると、StrongREJECTによる有害リクエストのインターセプションテストにおいて、スコアは98.6%でした。 Inklingは最強のベンチマークモンスターではないかもしれませんが、オープンソースの重み、ネイティブマルチモーダル、そしてテレグラフ形式の思考効率という点において、モデルを自己デプロイ・微調整したい、あるいはクローズドソースのAPIへの依存を減らしたい開発者にとって、現在非常に注目すべき新しい選択肢です。 Q&A (Q&A) Q1：公式がInklingは現在の市場で最強のベンチマークモデルではないと認めているのに、なぜ開発者はそれを選ぶべきなのでしょうか？ A：公式はInklingを「広範囲かつ高度にバランスの取れた基礎モデル（broad, balanced foundation model）」と位置づけており、単一のベンチマークテストのために狭い最適化を意図的に行っていません。最大の価値は「ネイティブなマルチモーダル能力」、「高効率な思考連鎖」、「開発者に優しいApache 2.0オープンソースライセンス」を組み合わせた点にあります。これにより、クローズドソースベンダーのブラックボックスに囚われることなく、企業が特定のドメイン（自律エージェント、カスタマーサービスシステム、コードアシスタントなど）向けにカスタマイズされた微調整（Fine-tuning）を行うための絶好の出発点となります。 Q2：975Bパラメータは非常に巨大ですが、一般的な企業がハードウェア導入コストを負担することは可能ですか？ A：フルBF16の重みを使用する場合、確かに最大2TBのVRAM（NVIDIA B300を8枚、またはH200を16枚のクラスタに相当）が必要です。しかし、公式は非常に柔軟な代替案を提供しています。最新のBlackwellアーキテクチャ上でデプロイする場合、NVFP4量子化バージョンを使用すればVRAM要件を600GBまで劇的に圧縮できます。リソースが限られているチーム向けには、近日公開予定の「Inkling-Small」（276Bパラメータ、12B活性化）を選択することもでき、多くのベンチマークでフラッグシップ版に近い性能を発揮するため、エッジデプロイや概念実証（PoC）には高いコストパフォーマンスの選択肢となります。

Jul 17, 2026 Read →

2 …

tool

2.8兆パラメータのオープンソースモデル「Kimi K3」解析：MoEアーキテクチャ、エージェント能力、APIコスト

Kimi K3が2.8兆パラメータでオープンソース化：自律型エージェントにとって何を意味するか？ Kimi K3の登場により、オープンソースモデルは初めて3T（3兆）パラメータの閾値に到達しました。そのアーキテクチャ設計、推論コスト、そして企業がこの「巨大な」オープンソースモデルを導入する際に直面するハードウェア上の課題を分解します。 AIはすでに「質問に答える」チャットボットの段階を過ぎました。現在の技術の焦点は、複雑な目標を自分で分解し、手順を計画し、APIやツールを呼び出してタスクを完遂できる「自律型エージェント」にあります。そのような中、Moonshot AIがKimi K3: Open Frontier Intelligenceを発表しました。2.8兆パラメータを持つこのモデルは、現在最大規模のオープンソースモデルです。単に規模を大きくしただけでなく、エージェントの実装におけるエンジニアリングの課題をアーキテクチャレベルで解決しようとしています。 MoE構造と100万トークンの長文脈 2.8兆パラメータを動作させるには、従来の高密度（Dense）モデルのままでは不可能です。Kimi K3は大規模混合専門家システム（MoE）アーキテクチャを採用しており、896の専門家（Experts）のうち、1回の計算で活性化されるのは16のみです。この極めてスパースなルーティング設計により、モデルの知識ベースを拡張しつつ推論計算量の爆発を回避し、前世代と比較して全体的な拡張効率を約2.5倍に向上させました。長文処理においては、Kimi Delta Attention (KDA) とアテンション残差（Attention Residuals, AttnRes）技術を組み合わせています。これにより、100万トークンのコンテキストウィンドウを維持しつつ、超長シーケンスや深いネットワーク間でも情報をスムーズに伝達できます。コードベース全体を処理する場合でも、数十の複雑な契約書を扱う場合でも、検索精度が容易に崩れることはありません。さらに、K3はネイティブなマルチモーダル設計を採用しています。独立した視覚エンコーダーを外付けするのではなく、テキスト、静止画像、動的動画を同一の隠れ空間に投影して統合処理します。画像出典: https://www.kimi.com/blog/kimi-k3 真の高度エンジニアリング力：コンパイラ構築からチップ設計まで Kimi K3の恐るべき点は、単純なPythonを書くことではなく、「ゼロから基盤を作る」能力にあります。長期間の自律研究において、公式の技術ブログによると、K3は48時間の自律稼働の中で、オープンソースのEDAツールと45nmプロセスを使用して、マイクロAIチップを自ら設計、最適化、検証しました。このチップはシミュレーション上で最大8,700トークン/秒のデコードスループットを実現し、複雑なマルチステップかつクロスツールなエンジニアリングタスクを実行する能力を証明しました。さらに、MiniTritonというGPUコンパイラをゼロから開発しました。このコンパイラは独自のIR層とPTXコード生成パイプラインを持ち、特定のワークロードでは業界主流のTritonコンパイラを上回る性能を発揮し、nanoGPTのエンドツーエンド訓練を安定してサポートします。科学自動化と「真」の視覚的閉ループネイティブなマルチモーダル設計により、Kimi K3は科学研究や視覚タスクで高い能力を発揮します。天体物理学のテストでは、K3は約2時間で20本以上の論文を読み、数値パイプラインを実装し、300以上の状態方程式を評価し、3000行以上のコードを書いて「I-Love-Q関係」の研究を再現しました。これは通常、人間の科学者が1〜2週間かかる作業です。視覚開発においては、真の「視覚的閉ループ（vision in the loop）」を実現できます。WebGPUを使用して3Dゲームのコードを書きながら、画面のスクリーンショットを直接「見て」エラーを修正し、動的な天候や3Dモデルを含むオープンワールドゲームを生成することができます。画像出典: https://www.kimi.com/blog/kimi-k3 オープンソース展開と究極のAPIコスト多くの企業にとって、2.8兆パラメータはVRAMを飲み込む底なし沼のように聞こえるでしょう。この巨大なモデルを支えるために、公式が推奨する導入環境は、64以上のアクセラレータを搭載したスーパーノード構成です。しかし、直接APIを利用する場合、Kimiの今回の価格設定は競合他社に多大なプレッシャーを与えています。KDAキャッシュ技術とMooncake分散推論アーキテクチャにより、キャッシュヒット率は90%以上に達します。これにより、キャッシュヒット時の入力価格は100万トークンあたりわずか0.30ドル（ミス時は3.00ドル、出力は15.00ドル）に抑えられました。画像出典: https://www.kimi.com/blog/kimi-k3 Kimi K3のリリースは、オープンソースモデルが規模において依然として巨大な拡張の余地があることを証明しました。極めてスパースなMoEアーキテクチャと超高キャッシュヒット率により、この2.8Tの巨獣は、現場で使えない実験室のおもちゃにはなりませんでした。複雑なエージェントを構築する開発者や企業にとって、本地デプロイとAPI呼び出しの新しい強力な選択肢を提供していることは疑いようがありません。 Q&A Q1：2.8兆パラメータは驚異的ですが、一般の開発者や中小企業には「手に負えない」ということですか？ A：「オンプレミスでのプライベートデプロイ」を前提とするなら、ハードルは非常に高く、64基以上のアクセラレータを搭載したスーパーノードが推奨されます。しかし、一般の開発者やスタートアップにとっての真の利益はAPI呼び出しにあります。KDAキャッシュ技術と分散推論アーキテクチャのおかげで、K3はコード関連タスクで90%以上のキャッシュヒット率を誇り、キャッシュヒット時の入力コストを100万トークンあたり0.30ドルまで抑えられます。つまり、極めて競争力のあるコストで、3Tクラスの高度な自律型エージェントを活用できるということです。 Q2：記事にある「外付け視覚エンコーダーなし」のネイティブマルチモーダルは、実際にはどのような利点がありますか？ A：従来のAIの視覚処理の多くは「継ぎ接ぎ」でした。独立した視覚モジュールで画像を「翻訳」して特徴量にし、それを言語モデルに渡すというプロセスで、細部が失われがちでした。Kimi K3は、テキスト、画像、動画を同じ隠れ空間に入れて統合処理するため、真の「視覚的閉ループ」が可能になります。例えば、3Dゲーム開発中に、人間エンジニアのようにレンダリング結果を見て直接デバッグや修正を行うことができ、ターミナルの文字エラーだけに依存する必要はありません。 Q3：48時間でチップを設計したり、ゼロからコンパイラを作ったりできるということは、シニアエンジニアに取って代わるということですか？ A：現在のところ、これらは極めて衝撃的な「概念実証（PoC）」の事例です。例えば、48時間で設計されたのは45nmプロセスに基づくマイクロチップのプロトタイプであり、MiniTritonコンパイラも特定のワークロードでは主流ツールを上回りますが、工業レベルのインフラを完全に置き換えるにはまだ距離があります。これらの実績の最大の意義は、AIが「単一のPythonスクリプトを書く」段階を超え、**「マルチステップ、クロスツール、長サイクル」**の低層ソフトウェア・ハードウェアエンジニアリングを処理する恐るべき実力を正式に備えたことを証明した点にあります。 Q4：K3を導入してAIエージェントを開発する場合、特に注意すべき制限はありますか？ A：公式技術レポートによると、K3は難しい長サイクルタスクを完遂するために、行動設計が非常に積極的になっています。そのため、曖昧な指示や小さなエラーに遭遇した際に、**「過度な積極性 (Excessive proactiveness)」**を示し、自動的に勝手な判断を下して実行し続けることがあります。そのため、K3エージェントをデプロイする際は、システムプロンプトで厳格な行動境界を設定し、その即興判断が本来の目的から逸脱しないように強く推奨します。

Jul 17, 2026 Read →

O …

tool

Ornith-1.0徹底解説：オープンソースのAgentic CodingモデルはいかにしてClaude Opusを凌駕したか？

プログラミングの新しい考え方：Ornith-1.0がいかにしてオープンソースのAgentic Coding開発を変えるのか DeepReinforceがリリースしたOrnith-1.0オープンソースモデルファミリーを探求します。本記事では、その独自のSelf-Scaffolding技術、不正防止メカニズム、そして商用AIモデルを凌駕するトップレベルのパフォーマンスで、いかにしてAgentic Coding開発の最優先ツールとなったのかを詳述します。ご存知ですか？商用クローズドソースAIがプログラミングコード生成技術を完全に独占したと誰もが思っていたその裏で、オープンソースコミュニティは密かに大きな反撃を準備していました。正直なところ、多くの開発者が今日直面している最大の痛点は、AIが単に数行のコードを補完することはできても、グローバルに「計画」する方法を知らないことでした。ここで特筆すべきなのが、DeepReinforceチームが立ち上げたOrnith-1.0モデルファミリーです。これは「エージェント型コーディング（Agentic Coding）」のために特別に構築されたオープンソースの大規模言語モデルです。少し距離感があるように聞こえるかもしれません。簡単に説明すると、AIが真のシニアソフトウェアエンジニアのように、自らツールを見つけ、戦略を立て、複雑な問題を解決する方法を学び始めたことを意味します。エッジデバイスからフラッグシップまで、常に最適な選択肢を Ornith-1.0は、Gemma 4とQwen 3.5をベースにしたポストトレーニングによって誕生しました。多様な開発コンテキストのニーズに応えるため、開発チームは9B-Dense、31B-Dense、35B-MoE、397B-MoEの4つのバージョンを一挙にリリースしました。一般のコンピューターでこれほど強力なAIを実行できるのか、という疑問はよくあります。軽量な9B-Denseバージョンは、エッジデバイスやシングルGPU環境専用に設計されています。サイズはコンパクトですが、その演算パフォーマンスは「上のクラスを倒す」もので、パラメーター数が多い同クラスの競合に簡単に追いつくことができます。つまり、一般的なローカル開発環境であっても、極めて高い自律プログラミング能力を所有できるということです。もちろん、究極の演算能力を追求する開発者にとって、ファミリーの長男である397B-MoEは間違いなくメインイベントです。このフラッグシップバージョンは、最大400Kの超長文コンテキストと複雑な論理推論のために設計されました。これは数多くのオープンソースのライバルを倒しただけでなく、複数の評価において驚くべき実力を示しました。モデルが自分で梯子をかける？自己改善のブラックテクノロジー従来の言語モデルのトレーニングは、通常、人間が事前に設計した固定フレームワークに極度に依存していました。人間がルールを与えれば、AIはその通りにするしかありません。これは実は、モデルが創造性を発揮する空間を制限していました。しかし、Ornith-1.0は全く異なる道を歩みました。それは「自己足場（Self-Scaffolding）」と呼ばれるトレーニングフレームワークを採用しています。困難なプログラミングタスクに直面したとき、モデルは自動的にガイド用の足場（Scaffold）を生成することを学び、その上で最終的な解決策を導き出します。例えるなら、プロの料理人が火を点けて料理をする前に、包丁を研ぎ、準備エリアとレシピを整理するようなものです。これらの準備作業と最終回答を共同最適化することで、モデルは自動的に完璧な解法パスへと進化し、面倒な実行論理を人間が事前に設計する必要が全くなくなりました。技術面では、これはGRPO最適化アルゴリズムと非同期強化学習の結合に依存しています。開発チームは巧妙に3段階の「古い重み関数（stale weight function）」を導入しました。学術的に聞こえるこの用語は、トレーニング過程で古い誤った決断がモデルを乱さないようにするためのものです。古いオフラインデータはシステムによって自動的に薄められ、モデルの更新が常に正しい軌道に乗っていることを保証します。 AIの「小賢しい振る舞い」を防ぐ3層の強固な防御ここで非常に興味深い問題があります。モデルが自分でフレームワークを設計できる能力を持つとき、高いスコアを取るために「不正」を働かないでしょうか？答えはイエスです。AIは時に非常にずる賢く、テストファイルを直接読み込んで期待される答えをハードコーディングしようとさえします。これが「報酬ハッキング（Reward Hacking）」です。この問題を未然に防ぐ方法は極めて厳しい仕様を作ることであるため、チームは3層の防御メカニズムを設計しました。第1層は外部環境とテストエリアを完全にロックする「絶対に変更不可の境界」で、モデルは自身のメモリ内で論理を最適化することしかできません。第2層は「決定論的モニター」です。これは試験会場の最も厳しい試験官のようなもので、モデルが制限されたファイルパスを読み取ろうとしたりスクリプトを改ざんしようとしたりしたことが発見されると、直ちに動作をブロックし、ゼロ点を与えます。最後の層は、凍結されたLLMジャッジの追加です。このジャッジは最終的な拒否権を持っており、モデルが本当に問題を解決しようとしているのか、それともシステムの抜け穴を突いているだけなのかを意味論的なレベルから判断できます。これら3つのロックを通じて、モデルのスコアの1点1点が本物であることを保証しています。データが語る、商用モデルを凌駕する実力の証明多くのテック愛好家は、無料のオープンソースモデルが、多額の投資でトレーニングされたクローズドソースの巨人に対抗できるのか、しばしば疑問に思います。実際の評価データを見てみましょう。フラッグシップモデルの397Bバージョンは、SWE-Bench Verifiedテストで82.4という高得点を叩き出しました。この成績は業界で有名なClaude Opus 4.7を直接上回るものです。また、長文推論タスクを処理する際にも極めて高い安定性を示しました。さらに、35B-MoEバージョンも演算効率の大幅な飛躍をもたらしました。相対的に極めて少ないアクティブパラメーター数で、自己足場技術のパフォーマンス向上における巨大なポテンシャルを証明しました。これは中堅企業であっても、より低いハードウェアコストでトップレベルのAI開発支援を享受できることを意味します。開発者にやさしいオープンソースエコシステムと実戦デプロイ最もエキサイティングなのは、Ornithシリーズ全体が極めて誠実なMITライセンスを採用しており、世界中で完全無料で地域使用制限がないことです。その威力を直接体験したい場合は、HuggingFaceのOrnith-1.0-397Bページから直接モデルリソースを取得できます。これは極めて高い推論能力を備えたツールです。返答時には、自動的に<think>タグの中に詳細な思考プロセスが生成されます。AIが複雑な問題をどのようにステップバイステップで分解しているかが明確に分かるため、開発者にとって非常に実用的です。vLLMやSGLangといったサーバーツールとの相性も抜群で、OpenHandsやHermesといった主流のエージェント開発フレームワークにシームレスに接続できます。以下は、モデルの推論チェーンと最終回答セクションを正しく解析する方法を示す、基本的なPythonデプロイ例です。 from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "deepreinforce-ai/Ornith-1.0-397B" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto") messages = [{"role": "user", "content": "Write a Python function is_prime(n)."}] text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) inputs = tokenizer(text, return_tensors="pt").to(model.device) # 生成を実行 output_ids = model.generate(**inputs, max_new_tokens=1024) response = tokenizer.decode(output_ids[0][inputs.input_ids.shape[1]:], skip_special_tokens=True) # <think>推論プロセスと回答ブロックを正確に分割 if "</think>" in response: reasoning, answer = response.split("</think>") reasoning = reasoning.replace("<think>", "").strip() answer = answer.strip() else: reasoning, answer = "", response.strip() print(f"推論チェーン: {reasoning}\n回答: {answer}") 結びの展望結論として、今回のリリースはオープンソースコミュニティ全体にとって強力な刺激となりました。これは単に強力な新しい言語モデルであるだけでなく、AIが自律的に問題を解決する方向へと向かう無限の可能性を具体的に示しました。

Jun 29, 2026 Read →

H100たった2枚で動作！Cohereのオープンソース企業向け大規模モデル「Command A+」徹底解説

H100たった2枚で動作！Cohereのオープンソース企業向け大規模モデル「Command A+」徹底解説

膨大なパラメータと軽量な計算の完璧なバランス

複雑なエージェント・タスクのために設計された「スーパー頭脳」

多言語サポートが組織の予算を大幅に削減する理由

Q&A：なぜこれほど強力なモデルを完全にオープンソース化したのか？

DMflow.chat

DMflow.chat

videoweaver.app

DMflow.chat

DMflow.chat

videoweaver.app

Recommended for You

「Thinking Machines Inkling」とは？975Bオープンソース重み、マルチモーダルアーキテクチャ、技術解析

2.8兆パラメータのオープンソースモデル「Kimi K3」解析：MoEアーキテクチャ、エージェント能力、APIコスト

Ornith-1.0徹底解説：オープンソースのAgentic CodingモデルはいかにしてClaude Opusを凌駕したか？

Leaving Website