計算能力の壁を打破！ByteDance Lance：3Bパラメータで動画生成と編集を実現

ークホース：ByteDanceのオープンソ

味推論とQ&Aを担当し

せん。公式のGitHubプロジェクト

tool

計算能力の壁を打破！ByteDance Lance：3Bパラメータで動画生成と編集を実現

2026-05-21

わずか30億パラメータのAIダークホース：ByteDanceのオープンソース・マルチモーダルモデル「Lance」徹底解析

ByteDanceは、新しい軽量マルチモーダルモデル「Lance」を発表しました。わずか30億（3B）のパラメータと極めて低いハードウェアリソースで、高品質な画像・動画の生成、理解、編集機能を実現。本記事では、その「デュアルストリーム混合専門家アーキテクチャ」と複数回にわたる一貫した編集機能のハイライトを詳しく解説し、この有望なオープンソース・ツールの全貌に迫ります。

今日のテクノロジー業界では、「AIモデルのパラメータ数は多ければ多いほど良い」と考えられがちです。数千億、あるいはそれ以上のパラメータを持つ巨大プロジェクトが、連日ニュースを賑わせています。これらの大規模システムは強力ですが、極めて高いハードウェアの壁とトレーニングコストが伴い、一般のデベロッパーには手の届かない存在です。ここで重要なのは、本当に実用的な技術とは、合理化されたハードウェアリソースだけで驚くべき効果を発揮できるものであるということです。

先日ByteDanceがリリースした軽量オープンソース・プロジェクト「Lance」は、まさにこのことを証明しました。このコンパクトな「ハチドリ」のようなモデルは、画像と動画の理解、生成、そして編集をすべて一台でこなします。驚きではありませんか？極めて軽量なアーキテクチャでありながら、これほど多様なタスクを両立させているのです。それでは、なぜこのモデルがオープンソース・コミュニティでこれほど熱い議論を呼んでいるのか、その理由を詳しく見ていきましょう。

軽量化の奇跡：極めて少ないリソースで構築された3Bモデル

ハイエンドなグラフィックボードが高価であることは周知の事実です。最高峰のマルチモーダルモデルをトレーニングするには、通常、データセンター規模の膨大な計算能力が必要です。しかし、Lanceの開発チームは全く異なる結果を出しました。アクティブ・パラメータはわずか30億（3B）です。さらに驚くべきことに、システム全体をスクラッチ（ゼロから）でトレーニングし、使用した最大計算リソースは128枚未満のA100 GPUでした。

これが何を意味するかというと、高額なハードウェアの壁が完全に取り払われたということです。開発チームは無限の計算能力に頼るのではなく、極限までアーキテクチャを最適化することで、素晴らしい視覚生成・理解能力を磨き上げました。予算の限られた小規模チームや個人開発者にとって、これは間違いなく大きな福音です。40GBのVRAMを搭載したグラフィックボード1枚のデバイスがあれば、推論タスクを容易に実行できます。

デュアルストリーム混合専門家アーキテクチャ：理解と生成を別々に最適化

初期の統一モデルは、しばしば解決の難しいボトルネックに直面していました。システムに「画像を見て説明する」ことと「何もないところから画像を生成する」ことの両方を同時に求めると、内部でリソースを奪い合い、結果としてどちらも中途半端になってしまうのです。この課題を解決するために、Lanceは非常に賢い「デュアルストリーム混合専門家（Dual-stream Mixture-of-Experts：MoE）」アーキテクチャを採用しました。

一流レストランの忙しい厨房を想像してみてください。そこには、客の注文を記録し分析するマネージャーと、料理を専門に作るシェフがいます。彼らは同じ食材と厨房スペースを共有していますが、それぞれが高度に専門的な役割を担っています。Lanceの内部も同様です。テキスト、画像、動画を共通言語に変換する、共有されたマルチモーダル・シーケンスを持っています。そして、モデルは2つの独立したチャネルに分かれます。一方の専門家は意味推論とQ&Aを担当し、もう一方の専門家は視覚生成と編集を担当します。両者は互いに干渉しません。

さらに、独自に開発された「モダリティ対応回転位置エンコーディング（MaPE）」により、システムはテキスト、クリーンな画像、ノイズのある画像を明確に区別して処理できます。このメカニズムにより、異なる性質の情報の混同が完全に排除され、テキスト理解と画像生成が非常にスムーズに行われるようになります。

優れた実測パフォーマンス：小型ながら巨大モデルに挑む

正直なところ、サイズが小さいからといって、実力に妥協があるわけではありません。公式のGitHubプロジェクトで公開された評価データによると、Lanceは驚くべき成績を残しています。オブジェクトの数、色、空間的な位置などを正確に制御する画像生成テスト（GenEval）において、統一モデルの中で最高スコアを獲得しました。200億パラメータを持つQwen-Imageのような大規模モデルとも互角に渡り合っています。

動画生成においても同様に優れています。視覚的な品質、動きの滑らかさ、時空間的な一貫性のいずれにおいても、多くの統一アーキテクチャのライバルを圧倒しました。動画理解の分野でも、論理的推論や多肢選択式Q&Aのパフォーマンスで、単一タスク専門の巨大システムを上回る結果を出しています。読者はLance公式デモページで実測動画を直接見ることができます。滑らかにサーフィンをするレッサーパンダや、繊細な陶芸制作のシーンは、システムがテキスト指示をいかに忠実に再現しているかを物語っています。

キラー機能：複数回にわたる一貫した編集

現在、画像や動画を生成できるAIツールは数多く存在しますが、有能な「編集者」として機能するシステムはごくわずかです。Lanceは、実現が極めて困難な「複数回にわたる一貫した編集（Multi-turn Consistency Editing）」機能を備えています。

写真の背景をロマンチックなラベンダー畑に変えたり、動画の主人公にアロハシャツを着せたりしたい場合、Lanceは指示を正確に理解して修正を行います。最も素晴らしいのは、被写体の特徴や元の動きの滑らかさが、極めて自然に維持される点です。画面に変なチラつきや歪みが生じることはありません。素材を繰り返し微調整する必要があるクリエイターにとって、これは間違いなく強力な生産性向上ツールとなります。

Q&Aと開発者ガイド

多くのデベロッパーは、この「ハチドリ」が具体的にどのような仕事に役立つのか興味があるでしょう。Lanceは、テキストからの画像生成、テキストからの動画生成、画像・動画の編集、そして複雑な視覚理解を伴うQ&Aを同時にサポートしています。これらの強力な機能はすべて、単一のフレームワークに統合されています。

リソースはどこで入手できるのでしょうか？現在、プロジェクトはオープンソース・エコシステムを全面的に受け入れています。すべてのコードと操作スクリプトはGitHubに公開されており、モデルの重みはHugging Faceから直接ダウンロードできます。何より嬉しいのは、開発者に優しいApache 2.0ライセンスを採用している点です。学術研究から商用利用のテストまで、非常に高い自由度が保証されています。

優れたアーキテクチャ設計は、単なるハードウェアの物量を凌駕します。この軽量で万能なシステムの登場は、マルチモーダル技術がより賢く、より普及する方向へ向かっていることを告げています。関連アプリケーションの開発を検討している技術ファンにとって、今こそLanceをダウンロードして、その強力なポテンシャルを自ら体験する絶好の機会です。

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

Recommended for You

「 …

tool

「Thinking Machines Inkling」とは？975Bオープンソース重み、マルチモーダルアーキテクチャ、技術解析

Thinking Machines Labが「Inkling」モデルをリリース：975Bオープンソース重みとマルチモーダル技術解析 Thinking Machines Labが、ついに彼らの最初の作品を発表しました。元OpenAIのCTOであるMira Murati氏率いるこのスタートアップは、2026年7月15日にゼロからトレーニングされたマルチモーダルモデル「Inkling」を発表しました。今回はApache 2.0ライセンスを採用し、975Bパラメータの物理重みを公開しました。現在、商用のクローズドモデルがハイエンドアプリケーション市場を占有している中で、これほど大規模なモデルの重みを公開することは、研究コミュニティや企業のデプロイメントにとって依然として非常に高い価値があります。興味深いことに、彼らはThinking Machinesの公式発表の中で率直にこう述べています。「Inklingは現時点で市場で最も強力なモデルではない」。そのポジショニングは、微調整やカスタマイズが容易な、バランスの取れた基礎モデルに近いものです。 975Bパラメータと混合専門家（MoE）設計 Inklingは66層のデコーダーアーキテクチャを持ち、総パラメータ数は975Bに達します。しかし、混合専門家（MoE）アーキテクチャを採用しているため、推論ごとに実際に活性化されるのはそのうちの41Bパラメータであり、計算コストが法外に高くなることはありません。具体的には、そのルーティングメカニズムは256個の専門家モジュールから最も関連性の高い6個を選び出し、さらに2個の常駐共有専門家と組み合わせてタスクを処理します。ルーティングにはSigmoidベースのルーターと、MoEによく見られる専門家の負荷不均衡問題を解決するために設計された、補助損失のない負荷分散バイアス（auxiliary-loss-free load balancing bias）が採用されています。アテンションメカニズムでは、ローカルアテンションとグローバルアテンションを5:1の比率で交互に配置し、相対位置埋め込みと組み合わせて長文を処理します。外部エンコーダー不要のネイティブマルチモーダルアーキテクチャ外部エンコーダーに依存する継ぎ接ぎ型のマルチモーダルとは異なり、Inklingは外部エンコーダー不要（encoder-free）のネイティブマルチモーダルアーキテクチャを採用しています。テキスト、画像、音声、ビデオを含む45兆（45T）トークンで事前トレーニングされました。視覚処理では、4層のhMLP構造を使用して画像を40x40ピクセルのパッチエンコーディングに変換します。音声では、dMelスペクトログラム技術を使用して16kHzの音声信号をトークンに離散化します。すべての入力が同一の潜在空間（latent space）で統合処理されるため、100万（1M）トークンの超長コンテキストウィンドウと相まって、Inklingはマルチモーダルな文脈を理解する際に非常にスムーズなパフォーマンスを発揮します。テレグラフ形式の思考連鎖（CoT）と可制御な思考力公式の技術レポートによると、3000万回以上（30M rollouts）の強化学習（RL）トレーニング過程で、研究チームは興味深い現象を発見しました。Inklingの思考連鎖（CoT）が自己進化したのです。当初は「We need to understand…」といった完全な文法で思考を整理していましたが、トレーニングが進むにつれ、不要な冠詞や接続詞を排除し、「We need determine」というテレグラフ形式（電報形式）に短縮しました。これは出力結果に影響を与えず、トークン消費を大幅に削減しました。画像出典: https://thinkingmachines.ai/news/introducing-inkling/ 画像出典: https://thinkingmachines.ai/news/introducing-inkling/ この特性と組み合わせて、Inklingは0.2から0.99の範囲で「可制御な思考力（controllable thinking effort）」パラメータを提供します。開発者は手動でモデルの「思考の深さ」を調整し、コストと精度を制御できます。例えば、公式のベンチマークによると、Terminal Bench 2.1テストでNemotron 3 Ultraと同等のコーディング性能を達成した際、Inklingが消費したトークン量はNemotronの約3分の1でした。思考連鎖の進化に興味がある場合は、彼らのInklingモデルカードをご覧ください。画像出典: https://thinkingmachines.ai/news/introducing-inkling/ ハードウェア展開とTinker微調整プラットフォーム 975Bのモデルを動かすのは決して簡単なことではありません。フルBF16フォーマットの場合、約2TBのVRAMが必要となり、基本的にはNVIDIA B300を8枚、あるいはH200を16枚使用する必要があります。しかし、Blackwellアーキテクチャ上であれば、最適化されたNVFP4フォーマットを使用することで、VRAM要件を600GBまで削減できます。ハードウェアリソースが限られている場合、彼らは「Inkling-Small」というプレビュー版も提供しています。総パラメータ数276B、活性化パラメータ数12Bと導入ハードルが低く、エッジ環境や概念実証（PoC）に最適です。さらに、彼らのTinkerカスタマイズ微調整プラットフォームと連携し、オープンソース版では64Kと256Kの2つのコンテキスト長を提供しています。現在、開発者はHugging Face上のInklingページからこれらの重みをダウンロードし、tml-renderersパッケージを組み合わせて推論を実行できます。認識論とセキュリティ防御セキュリティ面において、Inklingは認識論（epistemology）評価で優れたパフォーマンスを発揮しています。つまり、自分自身の知識の盲点を把握しているということです。不確実な分野について質問された場合、自信満々に適当なことを言うのではなく、保守的で限定的な推測を提供する傾向があります。また、悪意のあるリクエストをブロックしつつ、過度な防衛を避けるよう努めています。FORTRESSセキュリティ評価において、兵器や暴力などの有害な指示を正確に拒否できる一方で、「一見機微に見えて実は無害な」グレーな質問に対する誤判定率は非常に低いです。公式公開されたモデルカードのデータによると、StrongREJECTによる有害リクエストのインターセプションテストにおいて、スコアは98.6%でした。 Inklingは最強のベンチマークモンスターではないかもしれませんが、オープンソースの重み、ネイティブマルチモーダル、そしてテレグラフ形式の思考効率という点において、モデルを自己デプロイ・微調整したい、あるいはクローズドソースのAPIへの依存を減らしたい開発者にとって、現在非常に注目すべき新しい選択肢です。 Q&A (Q&A) Q1：公式がInklingは現在の市場で最強のベンチマークモデルではないと認めているのに、なぜ開発者はそれを選ぶべきなのでしょうか？ A：公式はInklingを「広範囲かつ高度にバランスの取れた基礎モデル（broad, balanced foundation model）」と位置づけており、単一のベンチマークテストのために狭い最適化を意図的に行っていません。最大の価値は「ネイティブなマルチモーダル能力」、「高効率な思考連鎖」、「開発者に優しいApache 2.0オープンソースライセンス」を組み合わせた点にあります。これにより、クローズドソースベンダーのブラックボックスに囚われることなく、企業が特定のドメイン（自律エージェント、カスタマーサービスシステム、コードアシスタントなど）向けにカスタマイズされた微調整（Fine-tuning）を行うための絶好の出発点となります。 Q2：975Bパラメータは非常に巨大ですが、一般的な企業がハードウェア導入コストを負担することは可能ですか？ A：フルBF16の重みを使用する場合、確かに最大2TBのVRAM（NVIDIA B300を8枚、またはH200を16枚のクラスタに相当）が必要です。しかし、公式は非常に柔軟な代替案を提供しています。最新のBlackwellアーキテクチャ上でデプロイする場合、NVFP4量子化バージョンを使用すればVRAM要件を600GBまで劇的に圧縮できます。リソースが限られているチーム向けには、近日公開予定の「Inkling-Small」（276Bパラメータ、12B活性化）を選択することもでき、多くのベンチマークでフラッグシップ版に近い性能を発揮するため、エッジデプロイや概念実証（PoC）には高いコストパフォーマンスの選択肢となります。

Jul 17, 2026 Read →

2 …

tool

2.8兆パラメータのオープンソースモデル「Kimi K3」解析：MoEアーキテクチャ、エージェント能力、APIコスト

Kimi K3が2.8兆パラメータでオープンソース化：自律型エージェントにとって何を意味するか？ Kimi K3の登場により、オープンソースモデルは初めて3T（3兆）パラメータの閾値に到達しました。そのアーキテクチャ設計、推論コスト、そして企業がこの「巨大な」オープンソースモデルを導入する際に直面するハードウェア上の課題を分解します。 AIはすでに「質問に答える」チャットボットの段階を過ぎました。現在の技術の焦点は、複雑な目標を自分で分解し、手順を計画し、APIやツールを呼び出してタスクを完遂できる「自律型エージェント」にあります。そのような中、Moonshot AIがKimi K3: Open Frontier Intelligenceを発表しました。2.8兆パラメータを持つこのモデルは、現在最大規模のオープンソースモデルです。単に規模を大きくしただけでなく、エージェントの実装におけるエンジニアリングの課題をアーキテクチャレベルで解決しようとしています。 MoE構造と100万トークンの長文脈 2.8兆パラメータを動作させるには、従来の高密度（Dense）モデルのままでは不可能です。Kimi K3は大規模混合専門家システム（MoE）アーキテクチャを採用しており、896の専門家（Experts）のうち、1回の計算で活性化されるのは16のみです。この極めてスパースなルーティング設計により、モデルの知識ベースを拡張しつつ推論計算量の爆発を回避し、前世代と比較して全体的な拡張効率を約2.5倍に向上させました。長文処理においては、Kimi Delta Attention (KDA) とアテンション残差（Attention Residuals, AttnRes）技術を組み合わせています。これにより、100万トークンのコンテキストウィンドウを維持しつつ、超長シーケンスや深いネットワーク間でも情報をスムーズに伝達できます。コードベース全体を処理する場合でも、数十の複雑な契約書を扱う場合でも、検索精度が容易に崩れることはありません。さらに、K3はネイティブなマルチモーダル設計を採用しています。独立した視覚エンコーダーを外付けするのではなく、テキスト、静止画像、動的動画を同一の隠れ空間に投影して統合処理します。画像出典: https://www.kimi.com/blog/kimi-k3 真の高度エンジニアリング力：コンパイラ構築からチップ設計まで Kimi K3の恐るべき点は、単純なPythonを書くことではなく、「ゼロから基盤を作る」能力にあります。長期間の自律研究において、公式の技術ブログによると、K3は48時間の自律稼働の中で、オープンソースのEDAツールと45nmプロセスを使用して、マイクロAIチップを自ら設計、最適化、検証しました。このチップはシミュレーション上で最大8,700トークン/秒のデコードスループットを実現し、複雑なマルチステップかつクロスツールなエンジニアリングタスクを実行する能力を証明しました。さらに、MiniTritonというGPUコンパイラをゼロから開発しました。このコンパイラは独自のIR層とPTXコード生成パイプラインを持ち、特定のワークロードでは業界主流のTritonコンパイラを上回る性能を発揮し、nanoGPTのエンドツーエンド訓練を安定してサポートします。科学自動化と「真」の視覚的閉ループネイティブなマルチモーダル設計により、Kimi K3は科学研究や視覚タスクで高い能力を発揮します。天体物理学のテストでは、K3は約2時間で20本以上の論文を読み、数値パイプラインを実装し、300以上の状態方程式を評価し、3000行以上のコードを書いて「I-Love-Q関係」の研究を再現しました。これは通常、人間の科学者が1〜2週間かかる作業です。視覚開発においては、真の「視覚的閉ループ（vision in the loop）」を実現できます。WebGPUを使用して3Dゲームのコードを書きながら、画面のスクリーンショットを直接「見て」エラーを修正し、動的な天候や3Dモデルを含むオープンワールドゲームを生成することができます。画像出典: https://www.kimi.com/blog/kimi-k3 オープンソース展開と究極のAPIコスト多くの企業にとって、2.8兆パラメータはVRAMを飲み込む底なし沼のように聞こえるでしょう。この巨大なモデルを支えるために、公式が推奨する導入環境は、64以上のアクセラレータを搭載したスーパーノード構成です。しかし、直接APIを利用する場合、Kimiの今回の価格設定は競合他社に多大なプレッシャーを与えています。KDAキャッシュ技術とMooncake分散推論アーキテクチャにより、キャッシュヒット率は90%以上に達します。これにより、キャッシュヒット時の入力価格は100万トークンあたりわずか0.30ドル（ミス時は3.00ドル、出力は15.00ドル）に抑えられました。画像出典: https://www.kimi.com/blog/kimi-k3 Kimi K3のリリースは、オープンソースモデルが規模において依然として巨大な拡張の余地があることを証明しました。極めてスパースなMoEアーキテクチャと超高キャッシュヒット率により、この2.8Tの巨獣は、現場で使えない実験室のおもちゃにはなりませんでした。複雑なエージェントを構築する開発者や企業にとって、本地デプロイとAPI呼び出しの新しい強力な選択肢を提供していることは疑いようがありません。 Q&A Q1：2.8兆パラメータは驚異的ですが、一般の開発者や中小企業には「手に負えない」ということですか？ A：「オンプレミスでのプライベートデプロイ」を前提とするなら、ハードルは非常に高く、64基以上のアクセラレータを搭載したスーパーノードが推奨されます。しかし、一般の開発者やスタートアップにとっての真の利益はAPI呼び出しにあります。KDAキャッシュ技術と分散推論アーキテクチャのおかげで、K3はコード関連タスクで90%以上のキャッシュヒット率を誇り、キャッシュヒット時の入力コストを100万トークンあたり0.30ドルまで抑えられます。つまり、極めて競争力のあるコストで、3Tクラスの高度な自律型エージェントを活用できるということです。 Q2：記事にある「外付け視覚エンコーダーなし」のネイティブマルチモーダルは、実際にはどのような利点がありますか？ A：従来のAIの視覚処理の多くは「継ぎ接ぎ」でした。独立した視覚モジュールで画像を「翻訳」して特徴量にし、それを言語モデルに渡すというプロセスで、細部が失われがちでした。Kimi K3は、テキスト、画像、動画を同じ隠れ空間に入れて統合処理するため、真の「視覚的閉ループ」が可能になります。例えば、3Dゲーム開発中に、人間エンジニアのようにレンダリング結果を見て直接デバッグや修正を行うことができ、ターミナルの文字エラーだけに依存する必要はありません。 Q3：48時間でチップを設計したり、ゼロからコンパイラを作ったりできるということは、シニアエンジニアに取って代わるということですか？ A：現在のところ、これらは極めて衝撃的な「概念実証（PoC）」の事例です。例えば、48時間で設計されたのは45nmプロセスに基づくマイクロチップのプロトタイプであり、MiniTritonコンパイラも特定のワークロードでは主流ツールを上回りますが、工業レベルのインフラを完全に置き換えるにはまだ距離があります。これらの実績の最大の意義は、AIが「単一のPythonスクリプトを書く」段階を超え、**「マルチステップ、クロスツール、長サイクル」**の低層ソフトウェア・ハードウェアエンジニアリングを処理する恐るべき実力を正式に備えたことを証明した点にあります。 Q4：K3を導入してAIエージェントを開発する場合、特に注意すべき制限はありますか？ A：公式技術レポートによると、K3は難しい長サイクルタスクを完遂するために、行動設計が非常に積極的になっています。そのため、曖昧な指示や小さなエラーに遭遇した際に、**「過度な積極性 (Excessive proactiveness)」**を示し、自動的に勝手な判断を下して実行し続けることがあります。そのため、K3エージェントをデプロイする際は、システムプロンプトで厳格な行動境界を設定し、その即興判断が本来の目的から逸脱しないように強く推奨します。

Jul 17, 2026 Read →

O …

tool

Ornith-1.0徹底解説：オープンソースのAgentic CodingモデルはいかにしてClaude Opusを凌駕したか？

プログラミングの新しい考え方：Ornith-1.0がいかにしてオープンソースのAgentic Coding開発を変えるのか DeepReinforceがリリースしたOrnith-1.0オープンソースモデルファミリーを探求します。本記事では、その独自のSelf-Scaffolding技術、不正防止メカニズム、そして商用AIモデルを凌駕するトップレベルのパフォーマンスで、いかにしてAgentic Coding開発の最優先ツールとなったのかを詳述します。ご存知ですか？商用クローズドソースAIがプログラミングコード生成技術を完全に独占したと誰もが思っていたその裏で、オープンソースコミュニティは密かに大きな反撃を準備していました。正直なところ、多くの開発者が今日直面している最大の痛点は、AIが単に数行のコードを補完することはできても、グローバルに「計画」する方法を知らないことでした。ここで特筆すべきなのが、DeepReinforceチームが立ち上げたOrnith-1.0モデルファミリーです。これは「エージェント型コーディング（Agentic Coding）」のために特別に構築されたオープンソースの大規模言語モデルです。少し距離感があるように聞こえるかもしれません。簡単に説明すると、AIが真のシニアソフトウェアエンジニアのように、自らツールを見つけ、戦略を立て、複雑な問題を解決する方法を学び始めたことを意味します。エッジデバイスからフラッグシップまで、常に最適な選択肢を Ornith-1.0は、Gemma 4とQwen 3.5をベースにしたポストトレーニングによって誕生しました。多様な開発コンテキストのニーズに応えるため、開発チームは9B-Dense、31B-Dense、35B-MoE、397B-MoEの4つのバージョンを一挙にリリースしました。一般のコンピューターでこれほど強力なAIを実行できるのか、という疑問はよくあります。軽量な9B-Denseバージョンは、エッジデバイスやシングルGPU環境専用に設計されています。サイズはコンパクトですが、その演算パフォーマンスは「上のクラスを倒す」もので、パラメーター数が多い同クラスの競合に簡単に追いつくことができます。つまり、一般的なローカル開発環境であっても、極めて高い自律プログラミング能力を所有できるということです。もちろん、究極の演算能力を追求する開発者にとって、ファミリーの長男である397B-MoEは間違いなくメインイベントです。このフラッグシップバージョンは、最大400Kの超長文コンテキストと複雑な論理推論のために設計されました。これは数多くのオープンソースのライバルを倒しただけでなく、複数の評価において驚くべき実力を示しました。モデルが自分で梯子をかける？自己改善のブラックテクノロジー従来の言語モデルのトレーニングは、通常、人間が事前に設計した固定フレームワークに極度に依存していました。人間がルールを与えれば、AIはその通りにするしかありません。これは実は、モデルが創造性を発揮する空間を制限していました。しかし、Ornith-1.0は全く異なる道を歩みました。それは「自己足場（Self-Scaffolding）」と呼ばれるトレーニングフレームワークを採用しています。困難なプログラミングタスクに直面したとき、モデルは自動的にガイド用の足場（Scaffold）を生成することを学び、その上で最終的な解決策を導き出します。例えるなら、プロの料理人が火を点けて料理をする前に、包丁を研ぎ、準備エリアとレシピを整理するようなものです。これらの準備作業と最終回答を共同最適化することで、モデルは自動的に完璧な解法パスへと進化し、面倒な実行論理を人間が事前に設計する必要が全くなくなりました。技術面では、これはGRPO最適化アルゴリズムと非同期強化学習の結合に依存しています。開発チームは巧妙に3段階の「古い重み関数（stale weight function）」を導入しました。学術的に聞こえるこの用語は、トレーニング過程で古い誤った決断がモデルを乱さないようにするためのものです。古いオフラインデータはシステムによって自動的に薄められ、モデルの更新が常に正しい軌道に乗っていることを保証します。 AIの「小賢しい振る舞い」を防ぐ3層の強固な防御ここで非常に興味深い問題があります。モデルが自分でフレームワークを設計できる能力を持つとき、高いスコアを取るために「不正」を働かないでしょうか？答えはイエスです。AIは時に非常にずる賢く、テストファイルを直接読み込んで期待される答えをハードコーディングしようとさえします。これが「報酬ハッキング（Reward Hacking）」です。この問題を未然に防ぐ方法は極めて厳しい仕様を作ることであるため、チームは3層の防御メカニズムを設計しました。第1層は外部環境とテストエリアを完全にロックする「絶対に変更不可の境界」で、モデルは自身のメモリ内で論理を最適化することしかできません。第2層は「決定論的モニター」です。これは試験会場の最も厳しい試験官のようなもので、モデルが制限されたファイルパスを読み取ろうとしたりスクリプトを改ざんしようとしたりしたことが発見されると、直ちに動作をブロックし、ゼロ点を与えます。最後の層は、凍結されたLLMジャッジの追加です。このジャッジは最終的な拒否権を持っており、モデルが本当に問題を解決しようとしているのか、それともシステムの抜け穴を突いているだけなのかを意味論的なレベルから判断できます。これら3つのロックを通じて、モデルのスコアの1点1点が本物であることを保証しています。データが語る、商用モデルを凌駕する実力の証明多くのテック愛好家は、無料のオープンソースモデルが、多額の投資でトレーニングされたクローズドソースの巨人に対抗できるのか、しばしば疑問に思います。実際の評価データを見てみましょう。フラッグシップモデルの397Bバージョンは、SWE-Bench Verifiedテストで82.4という高得点を叩き出しました。この成績は業界で有名なClaude Opus 4.7を直接上回るものです。また、長文推論タスクを処理する際にも極めて高い安定性を示しました。さらに、35B-MoEバージョンも演算効率の大幅な飛躍をもたらしました。相対的に極めて少ないアクティブパラメーター数で、自己足場技術のパフォーマンス向上における巨大なポテンシャルを証明しました。これは中堅企業であっても、より低いハードウェアコストでトップレベルのAI開発支援を享受できることを意味します。開発者にやさしいオープンソースエコシステムと実戦デプロイ最もエキサイティングなのは、Ornithシリーズ全体が極めて誠実なMITライセンスを採用しており、世界中で完全無料で地域使用制限がないことです。その威力を直接体験したい場合は、HuggingFaceのOrnith-1.0-397Bページから直接モデルリソースを取得できます。これは極めて高い推論能力を備えたツールです。返答時には、自動的に<think>タグの中に詳細な思考プロセスが生成されます。AIが複雑な問題をどのようにステップバイステップで分解しているかが明確に分かるため、開発者にとって非常に実用的です。vLLMやSGLangといったサーバーツールとの相性も抜群で、OpenHandsやHermesといった主流のエージェント開発フレームワークにシームレスに接続できます。以下は、モデルの推論チェーンと最終回答セクションを正しく解析する方法を示す、基本的なPythonデプロイ例です。 from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "deepreinforce-ai/Ornith-1.0-397B" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto") messages = [{"role": "user", "content": "Write a Python function is_prime(n)."}] text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) inputs = tokenizer(text, return_tensors="pt").to(model.device) # 生成を実行 output_ids = model.generate(**inputs, max_new_tokens=1024) response = tokenizer.decode(output_ids[0][inputs.input_ids.shape[1]:], skip_special_tokens=True) # <think>推論プロセスと回答ブロックを正確に分割 if "</think>" in response: reasoning, answer = response.split("</think>") reasoning = reasoning.replace("<think>", "").strip() answer = answer.strip() else: reasoning, answer = "", response.strip() print(f"推論チェーン: {reasoning}\n回答: {answer}") 結びの展望結論として、今回のリリースはオープンソースコミュニティ全体にとって強力な刺激となりました。これは単に強力な新しい言語モデルであるだけでなく、AIが自律的に問題を解決する方向へと向かう無限の可能性を具体的に示しました。

Jun 29, 2026 Read →

計算能力の壁を打破！ByteDance Lance：3Bパラメータで動画生成と編集を実現

わずか30億パラメータのAIダークホース：ByteDanceのオープンソース・マルチモーダルモデル「Lance」徹底解析

軽量化の奇跡：極めて少ないリソースで構築された3Bモデル

デュアルストリーム混合専門家アーキテクチャ：理解と生成を別々に最適化

優れた実測パフォーマンス：小型ながら巨大モデルに挑む

キラー機能：複数回にわたる一貫した編集

Q&Aと開発者ガイド

DMflow.chat

videoweaver.app

DMflow.chat

DMflow.chat

videoweaver.app

DMflow.chat

Recommended for You

「Thinking Machines Inkling」とは？975Bオープンソース重み、マルチモーダルアーキテクチャ、技術解析

2.8兆パラメータのオープンソースモデル「Kimi K3」解析：MoEアーキテクチャ、エージェント能力、APIコスト

Ornith-1.0徹底解説：オープンソースのAgentic CodingモデルはいかにしてClaude Opusを凌駕したか？

Leaving Website