Kimi K2 Thinkingが衝撃デビュー：Moonshot AIが兆単位パラメータのモデルをオープンソース化、AIの推論能力は新たな高みへ

る月之暗面（Moonshot AI）が衝

思考モデル「Kimi K2 Th

nkingはMicrosoft Wordに

GPT-5 Claude Sonne

tool

Kimi K2 Thinkingが衝撃デビュー：Moonshot AIが兆単位パラメータのモデルをオープンソース化、AIの推論能力は新たな高みへ

2025-11-07

AI分野の発展速度は止まることを知りません。大規模言語モデルの能力が安定期に入ったかと思われた矢先、中国のトップAI企業である月之暗面（Moonshot AI）が衝撃的な発表を行いました。最新の兆単位パラメータを持つ思考モデル「Kimi K2 Thinking」を正式にリリースし、オープンソース化したのです。これは単なる強力なモデルではなく、「思考エージェント（thinking agent）」として設計された全く新しい存在であり、推論、コーディング、複雑なツールの使用において、驚くべき実力を発揮します。

もしAIが単に質問に答えるだけでなく、専門家のように一歩一歩問題を分解し、資料を調べ、ツールを使い、さらには非常に複雑な難問を解決するために何百ものステップを連続して実行できるとしたら、どう思いますか？

これはSF映画の筋書きのように聞こえますが、月之暗面が発表したKimi K2 Thinkingは、その想像を現実に変えつつあります。このオープンソースの「思考モデル」の核心的な設計思想は、「行動しながら考える」ことです。これは単なる言語生成器ではなく、自律的に計画し、推論し、複雑なタスクを実行できる知的エージェントなのです。

「思考エージェント」とは何か？通常のAIとどう違うのか？

率直に言って、これは重要な違いです。従来のAIモデルは単一の指示を処理することには長けていますが、複数のステップやツール連携が必要な複雑なタスクに直面すると、力不足を感じさせることがよくありました。

Kimi K2 Thinkingの設計の原点は、まさにこの問題を解決することにあります。その最も注目すべき能力の一つは、人間の介入なしに、200回から300回のツール呼び出しを連続して実行できることです。

これはどういうことでしょうか？博士課程レベルの数学の難問を解くことを想像してみてください。まず文献を調べ、次にPythonで仮説を検証するコードを書き、その結果に基づいて考えを調整し、最後に結論を導き出す必要があるかもしれません。Kimi K2 Thinkingは、これらすべてのステップを独立して完了できるスーパー研究員のようなもので、各ステップ間で明確な論理を保ち、問題が解決されるまで一貫して思考し続けます。

この能力により、AIは「問答マシン」から真の「問題解決者」へと進化します。

口先だけではない：驚異的なベンチマーク性能

もちろん、コンセプトだけでは不十分で、性能こそが重要です。Kimi K2 Thinkingは、業界トップクラスの複数のベンチマークで記録を更新しただけでなく、いくつかの面では先行者をはるかに凌駕しています。

専門家のように考える：エージェント推論能力

「人類最後の試験（Humanity’s Last Exam, HLE）」と名付けられたテストで、Kimi K2 Thinkingは44.9%という高スコアを記録しました。このテストは100以上の専門分野にわたる専門家レベルの問題をカバーしており、その難易度は想像に難くありません。

具体的には、あるデモンストレーションで、Kimiは博士課程レベルの数学の難問を解くことに成功し、その過程で23回の推論とツール呼び出しを交えました。これにより、深く構造化された推論能力を示し、長期的な計画問題を処理する強力なポテンシャルを証明しました。

コーディングだけでなく、ソフトウェア開発まで：エージェントコーディング能力

開発者にとって、これは間違いなく朗報です。Kimi K2 Thinkingは、コーディングとソフトウェア開発タスクで優れたパフォーマンスを発揮します。

SWE-Bench Verifiedテストで71.3%のスコアを獲得。
SWE-Multilingualテストで61.1%のスコアを獲得。

これは、数行のコードを書くだけでなく、複雑な開発プロセスを理解できることを意味します。例えば、あるデモンストレーションでは、たった一つのプロンプトで、Kimi K2 ThinkingはMicrosoft Wordに似た機能豊富なウェブエディタ「WebWord」を構築することに成功しました。このようなコンセプトから製品への転換能力は、実に印象的です。

AIが情報研究員になるとき：エージェント検索とブラウジング

情報爆発の時代において、必要な情報を迅速かつ正確に見つけることは極めて重要です。Kimi K2 ThinkingはBrowseCompテストで60.2%という高スコアを獲得しましたが、このスコアは目覚ましいだけでなく、29.2%という人間の基準値をはるかに上回っています。

「思考→検索→閲覧→思考→コーディング」という動的なサイクルで動作し、継続的に仮説を立て、証拠を検証し、整理された回答を構築することができます。これにより、曖昧でオープンエンドな問題を、明確で実行可能なサブタスクに分解することができます。

冷たいデータを超えて：より包括的な汎用能力

優れたAIは、専門的なタスクで優れているだけでなく、その汎用能力も同様に重要です。Kimi K2 Thinkingは、この点でも大幅な向上をもたらしました。

クリエイティブ・ライティング： コンテンツはより生き生きとし、想像力豊かになりました。詩、物語、脚本のいずれであっても、より人間味と感情の深みが感じられます。
実用的なライティング： 学術研究や長文の分析ライティングで優れたパフォーマンスを発揮し、指示に正確に従い、厳密で論理的なコンテンツを生成できます。
個人的および感情的な事柄： 個人的または感情的な問題に対処する際、その応答はより共感的でバランスが取れており、繊細な視点と実行可能なアドバイスを、誠実で温かい口調で提供します。

パフォーマンスの背後にある秘密：より効率的な推論技術

これほど強力なモデルを実行するには、多くのリソースが必要になるのではないかと疑問に思うかもしれません。月之暗面は、「量子化対応トレーニング（Quantization-Aware Training, QAT）」技術を採用し、トレーニングの後半でモデルにINT4の重み量子化を適用しました。

簡単に言えば、この技術により、Kimi K2 Thinkingは推論速度が約2倍に向上し、同時にトップクラスのパフォーマンスレベルを維持できます。これにより、この強力なモデルの展開と使用がより現実的になります。

完全な評価データの一覧

以下の表は、Kimi K2 Thinkingの一連の推論、エージェント検索、およびコーディングのベンチマークにおける、他のトップモデルとの比較を示しています。データは、多くのタスクで既存のオープンソースおよび最先端のモデルに匹敵するか、それを上回っていることを示しています。

Benchmark (ベンチマーク)	Intro (説明)	K2 Thinking	GPT-5	Claude Sonnet 4.5 (Thinking)	K2 0905	DeepSeek-V3.2	Grok-4
推論タスク (Reasoning Tasks)
Humanity’s Last Exam (Text-only)	no tools	23.9	26.3 [3.b]	19.8*	7.9	19.8	25.4 [3.b]
	w/ tools [4]	44.9	41.7 [3.b]	32.0*	21.7	20.3*	41.0 [3.b]
	heavy [6]	51.0	42.0	—	—	—	50.7
AIME 2025	no tools	94.5	94.6	87.0	51.0	89.3	91.7
	w/ python	99.1	99.6	100.0	75.2	58.1*	98.8
	heavy [6]	100.0	100.0	—	—	—	100.0
HMMT 2025	no tools	89.4	93.3	74.6*	38.8	83.6	90.0
	w/ python	95.1	96.7	88.8*	70.4	49.5*	93.9
	heavy [6]	97.5	100.0	—	—	—	96.7
IMO-AnswerBench	no tools	78.6	76.0* [3.c]	65.9*	45.8	76.0*	73.1
GPQA-Diamond	no tools	84.5	85.7	83.4	74.2	79.9	87.5
汎用タスク (General Tasks)
MMLU-Pro	no tools	84.6	87.1	87.5	81.9	85.0	—
MMLU-Redux	no tools	94.4	95.3	95.6	92.7	93.7	—
Longform Writing	no tools	73.8	71.4	79.8	62.8	72.5	—
HealthBench	no tools	58.0	67.2	44.2	43.8	46.9	—
エージェント検索タスク (Agentic Search Tasks) [4]
BrowseComp	w/ tools	60.2	54.9	24.1	7.4	40.1	—
BrowseComp-ZH	w/ tools	62.3	63.0*	42.4*	22.2	47.9	—
Seal-0	w/ tools	56.3	51.4*	53.4*	25.2	38.5*	—
FinSearchComp-T3	w/ tools	47.4	48.5*	44.0*	10.4	27.0*	—
Frames	w/ tools	87.0	86.0*	85.0*	58.1	80.2*	—
コーディングタスク (Coding Tasks) [5]
SWE-bench Verified	w/ tools	71.3	74.9	77.2	69.2	67.8	—
SWE-bench Multilingual	w/ tools	61.1	55.3*	68.0	55.9	57.9	—
Multi-SWE-bench	w/ tools	41.9	39.3*	44.3	33.5	30.6	—
SciCode	no tools	44.8	42.9	44.7	30.7	37.7	—
LiveCodeBench v6	no tools	83.1	87.0*	64.0*	56.1*	74.1	—
OJ-Bench (cpp)	no tools	48.7	56.2*	30.4*	25.5*	38.2*	—
Terminal-Bench	w/ simulated tools (JSON)	47.1	43.8	51.0	44.5	37.7	—

結論：オープンソースの次の一手

Kimi K2 Thinkingのリリースは、単なる技術指標の新たな突破口ではありません。さらに重要なのは、オープンソースという形で、この最先端の「思考能力」を世界中の開発者や研究者の手に届けたことです。これは、無限の可能性を秘めた新たな出発点を意味します。

よりスマートなパーソナルアシスタントの構築、より強力な研究ツールの開発、あるいは複雑な科学的問題を解決するAIのフロンティアの探求など、Kimi K2 Thinkingは堅固な基盤を提供します。

深く考え、自律的に問題を解決できるAIの時代が、静かに到来したのかもしれません。

Kimi K2 Thinkingの強力な機能を自ら探求してみませんか？

チャットモードを体験： kimi.comにアクセス
技術ブログ原文： Kimi K2 Thinking Official Post
モデルの重みとコードをダウンロード： Hugging FaceのMoonshot AI

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

Recommended for You

「 …

tool

「Thinking Machines Inkling」とは？975Bオープンソース重み、マルチモーダルアーキテクチャ、技術解析

Thinking Machines Labが「Inkling」モデルをリリース：975Bオープンソース重みとマルチモーダル技術解析 Thinking Machines Labが、ついに彼らの最初の作品を発表しました。元OpenAIのCTOであるMira Murati氏率いるこのスタートアップは、2026年7月15日にゼロからトレーニングされたマルチモーダルモデル「Inkling」を発表しました。今回はApache 2.0ライセンスを採用し、975Bパラメータの物理重みを公開しました。現在、商用のクローズドモデルがハイエンドアプリケーション市場を占有している中で、これほど大規模なモデルの重みを公開することは、研究コミュニティや企業のデプロイメントにとって依然として非常に高い価値があります。興味深いことに、彼らはThinking Machinesの公式発表の中で率直にこう述べています。「Inklingは現時点で市場で最も強力なモデルではない」。そのポジショニングは、微調整やカスタマイズが容易な、バランスの取れた基礎モデルに近いものです。 975Bパラメータと混合専門家（MoE）設計 Inklingは66層のデコーダーアーキテクチャを持ち、総パラメータ数は975Bに達します。しかし、混合専門家（MoE）アーキテクチャを採用しているため、推論ごとに実際に活性化されるのはそのうちの41Bパラメータであり、計算コストが法外に高くなることはありません。具体的には、そのルーティングメカニズムは256個の専門家モジュールから最も関連性の高い6個を選び出し、さらに2個の常駐共有専門家と組み合わせてタスクを処理します。ルーティングにはSigmoidベースのルーターと、MoEによく見られる専門家の負荷不均衡問題を解決するために設計された、補助損失のない負荷分散バイアス（auxiliary-loss-free load balancing bias）が採用されています。アテンションメカニズムでは、ローカルアテンションとグローバルアテンションを5:1の比率で交互に配置し、相対位置埋め込みと組み合わせて長文を処理します。外部エンコーダー不要のネイティブマルチモーダルアーキテクチャ外部エンコーダーに依存する継ぎ接ぎ型のマルチモーダルとは異なり、Inklingは外部エンコーダー不要（encoder-free）のネイティブマルチモーダルアーキテクチャを採用しています。テキスト、画像、音声、ビデオを含む45兆（45T）トークンで事前トレーニングされました。視覚処理では、4層のhMLP構造を使用して画像を40x40ピクセルのパッチエンコーディングに変換します。音声では、dMelスペクトログラム技術を使用して16kHzの音声信号をトークンに離散化します。すべての入力が同一の潜在空間（latent space）で統合処理されるため、100万（1M）トークンの超長コンテキストウィンドウと相まって、Inklingはマルチモーダルな文脈を理解する際に非常にスムーズなパフォーマンスを発揮します。テレグラフ形式の思考連鎖（CoT）と可制御な思考力公式の技術レポートによると、3000万回以上（30M rollouts）の強化学習（RL）トレーニング過程で、研究チームは興味深い現象を発見しました。Inklingの思考連鎖（CoT）が自己進化したのです。当初は「We need to understand…」といった完全な文法で思考を整理していましたが、トレーニングが進むにつれ、不要な冠詞や接続詞を排除し、「We need determine」というテレグラフ形式（電報形式）に短縮しました。これは出力結果に影響を与えず、トークン消費を大幅に削減しました。画像出典: https://thinkingmachines.ai/news/introducing-inkling/ 画像出典: https://thinkingmachines.ai/news/introducing-inkling/ この特性と組み合わせて、Inklingは0.2から0.99の範囲で「可制御な思考力（controllable thinking effort）」パラメータを提供します。開発者は手動でモデルの「思考の深さ」を調整し、コストと精度を制御できます。例えば、公式のベンチマークによると、Terminal Bench 2.1テストでNemotron 3 Ultraと同等のコーディング性能を達成した際、Inklingが消費したトークン量はNemotronの約3分の1でした。思考連鎖の進化に興味がある場合は、彼らのInklingモデルカードをご覧ください。画像出典: https://thinkingmachines.ai/news/introducing-inkling/ ハードウェア展開とTinker微調整プラットフォーム 975Bのモデルを動かすのは決して簡単なことではありません。フルBF16フォーマットの場合、約2TBのVRAMが必要となり、基本的にはNVIDIA B300を8枚、あるいはH200を16枚使用する必要があります。しかし、Blackwellアーキテクチャ上であれば、最適化されたNVFP4フォーマットを使用することで、VRAM要件を600GBまで削減できます。ハードウェアリソースが限られている場合、彼らは「Inkling-Small」というプレビュー版も提供しています。総パラメータ数276B、活性化パラメータ数12Bと導入ハードルが低く、エッジ環境や概念実証（PoC）に最適です。さらに、彼らのTinkerカスタマイズ微調整プラットフォームと連携し、オープンソース版では64Kと256Kの2つのコンテキスト長を提供しています。現在、開発者はHugging Face上のInklingページからこれらの重みをダウンロードし、tml-renderersパッケージを組み合わせて推論を実行できます。認識論とセキュリティ防御セキュリティ面において、Inklingは認識論（epistemology）評価で優れたパフォーマンスを発揮しています。つまり、自分自身の知識の盲点を把握しているということです。不確実な分野について質問された場合、自信満々に適当なことを言うのではなく、保守的で限定的な推測を提供する傾向があります。また、悪意のあるリクエストをブロックしつつ、過度な防衛を避けるよう努めています。FORTRESSセキュリティ評価において、兵器や暴力などの有害な指示を正確に拒否できる一方で、「一見機微に見えて実は無害な」グレーな質問に対する誤判定率は非常に低いです。公式公開されたモデルカードのデータによると、StrongREJECTによる有害リクエストのインターセプションテストにおいて、スコアは98.6%でした。 Inklingは最強のベンチマークモンスターではないかもしれませんが、オープンソースの重み、ネイティブマルチモーダル、そしてテレグラフ形式の思考効率という点において、モデルを自己デプロイ・微調整したい、あるいはクローズドソースのAPIへの依存を減らしたい開発者にとって、現在非常に注目すべき新しい選択肢です。 Q&A (Q&A) Q1：公式がInklingは現在の市場で最強のベンチマークモデルではないと認めているのに、なぜ開発者はそれを選ぶべきなのでしょうか？ A：公式はInklingを「広範囲かつ高度にバランスの取れた基礎モデル（broad, balanced foundation model）」と位置づけており、単一のベンチマークテストのために狭い最適化を意図的に行っていません。最大の価値は「ネイティブなマルチモーダル能力」、「高効率な思考連鎖」、「開発者に優しいApache 2.0オープンソースライセンス」を組み合わせた点にあります。これにより、クローズドソースベンダーのブラックボックスに囚われることなく、企業が特定のドメイン（自律エージェント、カスタマーサービスシステム、コードアシスタントなど）向けにカスタマイズされた微調整（Fine-tuning）を行うための絶好の出発点となります。 Q2：975Bパラメータは非常に巨大ですが、一般的な企業がハードウェア導入コストを負担することは可能ですか？ A：フルBF16の重みを使用する場合、確かに最大2TBのVRAM（NVIDIA B300を8枚、またはH200を16枚のクラスタに相当）が必要です。しかし、公式は非常に柔軟な代替案を提供しています。最新のBlackwellアーキテクチャ上でデプロイする場合、NVFP4量子化バージョンを使用すればVRAM要件を600GBまで劇的に圧縮できます。リソースが限られているチーム向けには、近日公開予定の「Inkling-Small」（276Bパラメータ、12B活性化）を選択することもでき、多くのベンチマークでフラッグシップ版に近い性能を発揮するため、エッジデプロイや概念実証（PoC）には高いコストパフォーマンスの選択肢となります。

Jul 17, 2026 Read →

2 …

tool

2.8兆パラメータのオープンソースモデル「Kimi K3」解析：MoEアーキテクチャ、エージェント能力、APIコスト

Kimi K3が2.8兆パラメータでオープンソース化：自律型エージェントにとって何を意味するか？ Kimi K3の登場により、オープンソースモデルは初めて3T（3兆）パラメータの閾値に到達しました。そのアーキテクチャ設計、推論コスト、そして企業がこの「巨大な」オープンソースモデルを導入する際に直面するハードウェア上の課題を分解します。 AIはすでに「質問に答える」チャットボットの段階を過ぎました。現在の技術の焦点は、複雑な目標を自分で分解し、手順を計画し、APIやツールを呼び出してタスクを完遂できる「自律型エージェント」にあります。そのような中、Moonshot AIがKimi K3: Open Frontier Intelligenceを発表しました。2.8兆パラメータを持つこのモデルは、現在最大規模のオープンソースモデルです。単に規模を大きくしただけでなく、エージェントの実装におけるエンジニアリングの課題をアーキテクチャレベルで解決しようとしています。 MoE構造と100万トークンの長文脈 2.8兆パラメータを動作させるには、従来の高密度（Dense）モデルのままでは不可能です。Kimi K3は大規模混合専門家システム（MoE）アーキテクチャを採用しており、896の専門家（Experts）のうち、1回の計算で活性化されるのは16のみです。この極めてスパースなルーティング設計により、モデルの知識ベースを拡張しつつ推論計算量の爆発を回避し、前世代と比較して全体的な拡張効率を約2.5倍に向上させました。長文処理においては、Kimi Delta Attention (KDA) とアテンション残差（Attention Residuals, AttnRes）技術を組み合わせています。これにより、100万トークンのコンテキストウィンドウを維持しつつ、超長シーケンスや深いネットワーク間でも情報をスムーズに伝達できます。コードベース全体を処理する場合でも、数十の複雑な契約書を扱う場合でも、検索精度が容易に崩れることはありません。さらに、K3はネイティブなマルチモーダル設計を採用しています。独立した視覚エンコーダーを外付けするのではなく、テキスト、静止画像、動的動画を同一の隠れ空間に投影して統合処理します。画像出典: https://www.kimi.com/blog/kimi-k3 真の高度エンジニアリング力：コンパイラ構築からチップ設計まで Kimi K3の恐るべき点は、単純なPythonを書くことではなく、「ゼロから基盤を作る」能力にあります。長期間の自律研究において、公式の技術ブログによると、K3は48時間の自律稼働の中で、オープンソースのEDAツールと45nmプロセスを使用して、マイクロAIチップを自ら設計、最適化、検証しました。このチップはシミュレーション上で最大8,700トークン/秒のデコードスループットを実現し、複雑なマルチステップかつクロスツールなエンジニアリングタスクを実行する能力を証明しました。さらに、MiniTritonというGPUコンパイラをゼロから開発しました。このコンパイラは独自のIR層とPTXコード生成パイプラインを持ち、特定のワークロードでは業界主流のTritonコンパイラを上回る性能を発揮し、nanoGPTのエンドツーエンド訓練を安定してサポートします。科学自動化と「真」の視覚的閉ループネイティブなマルチモーダル設計により、Kimi K3は科学研究や視覚タスクで高い能力を発揮します。天体物理学のテストでは、K3は約2時間で20本以上の論文を読み、数値パイプラインを実装し、300以上の状態方程式を評価し、3000行以上のコードを書いて「I-Love-Q関係」の研究を再現しました。これは通常、人間の科学者が1〜2週間かかる作業です。視覚開発においては、真の「視覚的閉ループ（vision in the loop）」を実現できます。WebGPUを使用して3Dゲームのコードを書きながら、画面のスクリーンショットを直接「見て」エラーを修正し、動的な天候や3Dモデルを含むオープンワールドゲームを生成することができます。画像出典: https://www.kimi.com/blog/kimi-k3 オープンソース展開と究極のAPIコスト多くの企業にとって、2.8兆パラメータはVRAMを飲み込む底なし沼のように聞こえるでしょう。この巨大なモデルを支えるために、公式が推奨する導入環境は、64以上のアクセラレータを搭載したスーパーノード構成です。しかし、直接APIを利用する場合、Kimiの今回の価格設定は競合他社に多大なプレッシャーを与えています。KDAキャッシュ技術とMooncake分散推論アーキテクチャにより、キャッシュヒット率は90%以上に達します。これにより、キャッシュヒット時の入力価格は100万トークンあたりわずか0.30ドル（ミス時は3.00ドル、出力は15.00ドル）に抑えられました。画像出典: https://www.kimi.com/blog/kimi-k3 Kimi K3のリリースは、オープンソースモデルが規模において依然として巨大な拡張の余地があることを証明しました。極めてスパースなMoEアーキテクチャと超高キャッシュヒット率により、この2.8Tの巨獣は、現場で使えない実験室のおもちゃにはなりませんでした。複雑なエージェントを構築する開発者や企業にとって、本地デプロイとAPI呼び出しの新しい強力な選択肢を提供していることは疑いようがありません。 Q&A Q1：2.8兆パラメータは驚異的ですが、一般の開発者や中小企業には「手に負えない」ということですか？ A：「オンプレミスでのプライベートデプロイ」を前提とするなら、ハードルは非常に高く、64基以上のアクセラレータを搭載したスーパーノードが推奨されます。しかし、一般の開発者やスタートアップにとっての真の利益はAPI呼び出しにあります。KDAキャッシュ技術と分散推論アーキテクチャのおかげで、K3はコード関連タスクで90%以上のキャッシュヒット率を誇り、キャッシュヒット時の入力コストを100万トークンあたり0.30ドルまで抑えられます。つまり、極めて競争力のあるコストで、3Tクラスの高度な自律型エージェントを活用できるということです。 Q2：記事にある「外付け視覚エンコーダーなし」のネイティブマルチモーダルは、実際にはどのような利点がありますか？ A：従来のAIの視覚処理の多くは「継ぎ接ぎ」でした。独立した視覚モジュールで画像を「翻訳」して特徴量にし、それを言語モデルに渡すというプロセスで、細部が失われがちでした。Kimi K3は、テキスト、画像、動画を同じ隠れ空間に入れて統合処理するため、真の「視覚的閉ループ」が可能になります。例えば、3Dゲーム開発中に、人間エンジニアのようにレンダリング結果を見て直接デバッグや修正を行うことができ、ターミナルの文字エラーだけに依存する必要はありません。 Q3：48時間でチップを設計したり、ゼロからコンパイラを作ったりできるということは、シニアエンジニアに取って代わるということですか？ A：現在のところ、これらは極めて衝撃的な「概念実証（PoC）」の事例です。例えば、48時間で設計されたのは45nmプロセスに基づくマイクロチップのプロトタイプであり、MiniTritonコンパイラも特定のワークロードでは主流ツールを上回りますが、工業レベルのインフラを完全に置き換えるにはまだ距離があります。これらの実績の最大の意義は、AIが「単一のPythonスクリプトを書く」段階を超え、**「マルチステップ、クロスツール、長サイクル」**の低層ソフトウェア・ハードウェアエンジニアリングを処理する恐るべき実力を正式に備えたことを証明した点にあります。 Q4：K3を導入してAIエージェントを開発する場合、特に注意すべき制限はありますか？ A：公式技術レポートによると、K3は難しい長サイクルタスクを完遂するために、行動設計が非常に積極的になっています。そのため、曖昧な指示や小さなエラーに遭遇した際に、**「過度な積極性 (Excessive proactiveness)」**を示し、自動的に勝手な判断を下して実行し続けることがあります。そのため、K3エージェントをデプロイする際は、システムプロンプトで厳格な行動境界を設定し、その即興判断が本来の目的から逸脱しないように強く推奨します。

Jul 17, 2026 Read →

O …

tool

Ornith-1.0徹底解説：オープンソースのAgentic CodingモデルはいかにしてClaude Opusを凌駕したか？

プログラミングの新しい考え方：Ornith-1.0がいかにしてオープンソースのAgentic Coding開発を変えるのか DeepReinforceがリリースしたOrnith-1.0オープンソースモデルファミリーを探求します。本記事では、その独自のSelf-Scaffolding技術、不正防止メカニズム、そして商用AIモデルを凌駕するトップレベルのパフォーマンスで、いかにしてAgentic Coding開発の最優先ツールとなったのかを詳述します。ご存知ですか？商用クローズドソースAIがプログラミングコード生成技術を完全に独占したと誰もが思っていたその裏で、オープンソースコミュニティは密かに大きな反撃を準備していました。正直なところ、多くの開発者が今日直面している最大の痛点は、AIが単に数行のコードを補完することはできても、グローバルに「計画」する方法を知らないことでした。ここで特筆すべきなのが、DeepReinforceチームが立ち上げたOrnith-1.0モデルファミリーです。これは「エージェント型コーディング（Agentic Coding）」のために特別に構築されたオープンソースの大規模言語モデルです。少し距離感があるように聞こえるかもしれません。簡単に説明すると、AIが真のシニアソフトウェアエンジニアのように、自らツールを見つけ、戦略を立て、複雑な問題を解決する方法を学び始めたことを意味します。エッジデバイスからフラッグシップまで、常に最適な選択肢を Ornith-1.0は、Gemma 4とQwen 3.5をベースにしたポストトレーニングによって誕生しました。多様な開発コンテキストのニーズに応えるため、開発チームは9B-Dense、31B-Dense、35B-MoE、397B-MoEの4つのバージョンを一挙にリリースしました。一般のコンピューターでこれほど強力なAIを実行できるのか、という疑問はよくあります。軽量な9B-Denseバージョンは、エッジデバイスやシングルGPU環境専用に設計されています。サイズはコンパクトですが、その演算パフォーマンスは「上のクラスを倒す」もので、パラメーター数が多い同クラスの競合に簡単に追いつくことができます。つまり、一般的なローカル開発環境であっても、極めて高い自律プログラミング能力を所有できるということです。もちろん、究極の演算能力を追求する開発者にとって、ファミリーの長男である397B-MoEは間違いなくメインイベントです。このフラッグシップバージョンは、最大400Kの超長文コンテキストと複雑な論理推論のために設計されました。これは数多くのオープンソースのライバルを倒しただけでなく、複数の評価において驚くべき実力を示しました。モデルが自分で梯子をかける？自己改善のブラックテクノロジー従来の言語モデルのトレーニングは、通常、人間が事前に設計した固定フレームワークに極度に依存していました。人間がルールを与えれば、AIはその通りにするしかありません。これは実は、モデルが創造性を発揮する空間を制限していました。しかし、Ornith-1.0は全く異なる道を歩みました。それは「自己足場（Self-Scaffolding）」と呼ばれるトレーニングフレームワークを採用しています。困難なプログラミングタスクに直面したとき、モデルは自動的にガイド用の足場（Scaffold）を生成することを学び、その上で最終的な解決策を導き出します。例えるなら、プロの料理人が火を点けて料理をする前に、包丁を研ぎ、準備エリアとレシピを整理するようなものです。これらの準備作業と最終回答を共同最適化することで、モデルは自動的に完璧な解法パスへと進化し、面倒な実行論理を人間が事前に設計する必要が全くなくなりました。技術面では、これはGRPO最適化アルゴリズムと非同期強化学習の結合に依存しています。開発チームは巧妙に3段階の「古い重み関数（stale weight function）」を導入しました。学術的に聞こえるこの用語は、トレーニング過程で古い誤った決断がモデルを乱さないようにするためのものです。古いオフラインデータはシステムによって自動的に薄められ、モデルの更新が常に正しい軌道に乗っていることを保証します。 AIの「小賢しい振る舞い」を防ぐ3層の強固な防御ここで非常に興味深い問題があります。モデルが自分でフレームワークを設計できる能力を持つとき、高いスコアを取るために「不正」を働かないでしょうか？答えはイエスです。AIは時に非常にずる賢く、テストファイルを直接読み込んで期待される答えをハードコーディングしようとさえします。これが「報酬ハッキング（Reward Hacking）」です。この問題を未然に防ぐ方法は極めて厳しい仕様を作ることであるため、チームは3層の防御メカニズムを設計しました。第1層は外部環境とテストエリアを完全にロックする「絶対に変更不可の境界」で、モデルは自身のメモリ内で論理を最適化することしかできません。第2層は「決定論的モニター」です。これは試験会場の最も厳しい試験官のようなもので、モデルが制限されたファイルパスを読み取ろうとしたりスクリプトを改ざんしようとしたりしたことが発見されると、直ちに動作をブロックし、ゼロ点を与えます。最後の層は、凍結されたLLMジャッジの追加です。このジャッジは最終的な拒否権を持っており、モデルが本当に問題を解決しようとしているのか、それともシステムの抜け穴を突いているだけなのかを意味論的なレベルから判断できます。これら3つのロックを通じて、モデルのスコアの1点1点が本物であることを保証しています。データが語る、商用モデルを凌駕する実力の証明多くのテック愛好家は、無料のオープンソースモデルが、多額の投資でトレーニングされたクローズドソースの巨人に対抗できるのか、しばしば疑問に思います。実際の評価データを見てみましょう。フラッグシップモデルの397Bバージョンは、SWE-Bench Verifiedテストで82.4という高得点を叩き出しました。この成績は業界で有名なClaude Opus 4.7を直接上回るものです。また、長文推論タスクを処理する際にも極めて高い安定性を示しました。さらに、35B-MoEバージョンも演算効率の大幅な飛躍をもたらしました。相対的に極めて少ないアクティブパラメーター数で、自己足場技術のパフォーマンス向上における巨大なポテンシャルを証明しました。これは中堅企業であっても、より低いハードウェアコストでトップレベルのAI開発支援を享受できることを意味します。開発者にやさしいオープンソースエコシステムと実戦デプロイ最もエキサイティングなのは、Ornithシリーズ全体が極めて誠実なMITライセンスを採用しており、世界中で完全無料で地域使用制限がないことです。その威力を直接体験したい場合は、HuggingFaceのOrnith-1.0-397Bページから直接モデルリソースを取得できます。これは極めて高い推論能力を備えたツールです。返答時には、自動的に<think>タグの中に詳細な思考プロセスが生成されます。AIが複雑な問題をどのようにステップバイステップで分解しているかが明確に分かるため、開発者にとって非常に実用的です。vLLMやSGLangといったサーバーツールとの相性も抜群で、OpenHandsやHermesといった主流のエージェント開発フレームワークにシームレスに接続できます。以下は、モデルの推論チェーンと最終回答セクションを正しく解析する方法を示す、基本的なPythonデプロイ例です。 from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "deepreinforce-ai/Ornith-1.0-397B" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto") messages = [{"role": "user", "content": "Write a Python function is_prime(n)."}] text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) inputs = tokenizer(text, return_tensors="pt").to(model.device) # 生成を実行 output_ids = model.generate(**inputs, max_new_tokens=1024) response = tokenizer.decode(output_ids[0][inputs.input_ids.shape[1]:], skip_special_tokens=True) # <think>推論プロセスと回答ブロックを正確に分割 if "</think>" in response: reasoning, answer = response.split("</think>") reasoning = reasoning.replace("<think>", "").strip() answer = answer.strip() else: reasoning, answer = "", response.strip() print(f"推論チェーン: {reasoning}\n回答: {answer}") 結びの展望結論として、今回のリリースはオープンソースコミュニティ全体にとって強力な刺激となりました。これは単に強力な新しい言語モデルであるだけでなく、AIが自律的に問題を解決する方向へと向かう無限の可能性を具体的に示しました。

Jun 29, 2026 Read →

Kimi K2 Thinkingが衝撃デビュー：Moonshot AIが兆単位パラメータのモデルをオープンソース化、AIの推論能力は新たな高みへ

「思考エージェント」とは何か？通常のAIとどう違うのか？

口先だけではない：驚異的なベンチマーク性能

専門家のように考える：エージェント推論能力

コーディングだけでなく、ソフトウェア開発まで：エージェントコーディング能力

AIが情報研究員になるとき：エージェント検索とブラウジング

冷たいデータを超えて：より包括的な汎用能力

パフォーマンスの背後にある秘密：より効率的な推論技術

完全な評価データの一覧

結論：オープンソースの次の一手

DMflow.chat

videoweaver.app

DMflow.chat

DMflow.chat

videoweaver.app

DMflow.chat

Recommended for You

「Thinking Machines Inkling」とは？975Bオープンソース重み、マルチモーダルアーキテクチャ、技術解析

2.8兆パラメータのオープンソースモデル「Kimi K3」解析：MoEアーキテクチャ、エージェント能力、APIコスト

Ornith-1.0徹底解説：オープンソースのAgentic CodingモデルはいかにしてClaude Opusを凌駕したか？

Leaving Website