Ai2が再びオープンソースAI界を覆す!Olmo 3はモデルの重みをリリースするだけでなく、完全な「モデルフロー」を直接公開します。7Bから32Bのパラメータースケールまで、ベース、シンク、インストラクト、RLZeroの各バージョンをカバーし、完全なトレーニングデータと中間チェックポイントが付属しています。これは単なるオープンソースではなく、AI開発のあらゆる詳細を白日の下に晒すものです。
なぜ私たちは結果しか見えず、過程は見えないのか?
皆さんはあることに気づいていますか?現在市販されている言語モデルは、通常「スナップショット」のようなものです。
開発者は長く、綿密な調整を経て、最終的に完成品の重みだけを公開し、「どうぞ使ってください、これは強力です」と皆に告げます。しかし、その間に何が起こったのでしょうか?モデルはどのようにしてこれらの知識を学んだのでしょうか?モデルを修正、調整、または特定のドメインに適応させたい場合、最終的な重みだけでは不十分なことがよくあります。これは、ミシュラン三つ星の料理を与えられたのに、レシピと調理過程が金庫に閉じ込められているようなものです。
アレン人工知能研究所(Ai2)は明らかにそうしたくありません。
Olmo 3 のリリースに伴い、彼らはまったく新しい概念、**「モデルフロー」**を提案しました。これは最終的なモデルに関するものだけでなく、ライフサイクル全体に関するものです。データセットの選択から、各トレーニング段階のチェックポイント、トレーニングに必要な依存関係まで、すべてが公開されています。これを行う目的は単純です。真の信頼を築き、研究者が完成品を微調整するだけでなく、開発プロセスに真に「介入」できるようにするためです。
Olmo 3ファミリーのコアメンバー:単なるモデルではなく、完全なエコシステム
Olmo 3は単一のモデルではなく、70億(7B)と320億(32B)の2つのパラメータースケールをカバーする、慎重に設計されたファミリーです。これら2つのサイズはスイートスポットを的確に捉えています。7Bはノートパソコンでの実行に適しており、32Bはパフォーマンスとハードウェア要件の間で優れたバランスを実現し、研究クラスターでの使用に適しています。
このファミリーの4つの主要なブランチを詳しく見てみましょう。
1. Olmo 3-Base:最強の基盤
これがすべての基礎です。Olmo 3-Baseは、現在最強の「完全にオープンソース」のベースモデルとして評価されています。ここでの「完全にオープンソース」とは、トレーニングデータ、コード、および重みがすべて公開されていることを意味します。評価では、そのパフォーマンスは同じタイプの他の完全にオープンソースのモデルを上回るだけでなく、Qwen 2.5やGemma 3など、重みのみを公開しているトップクラスのモデルとも競合できます。
プログラミング、読解、数学の問題解決で優れたパフォーマンスを発揮し、最大65Kトークンのコンテキスト長をサポートします。ゼロからポストトレーニングを行いたい開発者にとって、これは非常に強固な出発点です。
2. Olmo 3-Think:思考プロセスを可視化する
これはおそらく、このリリースで最もエキサイティングな部分です。Olmo 3-Thinkは「推論」に特化したモデルです。ユーザーは中間的な推論の軌跡を調べることができ、つまり、モデルが答えを出す前に、頭の中で何を「考えていた」かを見ることができます。
このモデルは、特定のトレーニングプロセス(SFT -> DPO -> RLVR)を通じて、数学、コード、および多段階の問題解決において驚くべき能力を発揮します。データによると、Olmo 3-Think(32B)は、MATHやOMEGAなどのベンチマークで、すでにQwen 3 32Bと同等であり、一部の項目ではそれを上回っています。もはや答えを吐き出すだけのブラックボックスではなく、自らの論理を説明できる思想家です。
3. Olmo 3-Instruct:対話とツール使用の専門家
流暢にチャットし、指示を理解し、ツールを使用できるアシスタントが必要な場合は、これです。Olmo 3-Instructは、指示に合わせて微調整されたバージョンで、マルチターンの対話とツール使用に特化しています。
評価では、そのパフォーマンスはLlama 3.1およびQwen 2.5に匹敵します。これは、開発者がライセンスやブラックボックスの問題を心配することなく、高品質の対話エージェントを構築するための完全にオープンソースで高性能な代替手段を手に入れたことを意味します。
4. Olmo 3-RLZero:強化学習の実験場
これはハードコアな研究者への贈り物です。Olmo 3-RLZeroは、複雑な推論行動を導くために設計された完全な強化学習パスを提供します。Ai2は、数学、コード、指示追従、および一般的なチャットの各ドメインに特化したトレーニング用に、4つのシリーズのチェックポイントをリリースしました。これにより、研究者は強化学習がモデルの行動にどのように影響するかを詳細に研究し、検証可能な報酬(RLVR)で実験を行うことができます。
データの透明性:Dolma 3とDolciの重要な役割
正直なところ、「オープンソース」と称するモデルの多くは、トレーニングデータについてしばしば秘密主義です。しかし、Olmo 3はすべてを明らかにすることを選択しました。
今回の事前トレーニングでは、まったく新しいDolma 3データセットが使用されました。これは、Webページ、olmOCRで処理された科学論文のPDF、コードリポジトリ、数学の問題などを含む、約9.3兆トークンの巨大なコーパスです。
モデルをより賢くするために、Ai2は特定のデータ混合レシピも設計しました。
- Dolma 3 Mix (5.9T): 事前トレーニングに使用され、コードと数学データの割合を増やし、厳密な重複排除と品質フィルタリングが施されています。
- Dolma 3 Dolmino: これは「ミッドトレーニング」段階の秘密兵器です。わずか1000億トークンですが、すべて高品質の数学、科学、推論データです。これは、試験前の追い込みクラスの要約ノートのようなもので、モデルが特定のドメインに入る前に基礎を固めるのに役立ちます。
- Dolma 3 Longmino: 長いテキスト用に特別に設計された混合データで、モデルが数万語のレポートやログで情報を追跡する方法を学ぶことができます。
- Dolci: これはポストトレーニング用に特別に準備されたデータスイートで、SFT、DPO、およびRLVRの各段階で必要なデータをカバーしています。
このレベルの透明性は、モデルが現在のような姿になるために何を「食べた」かを正確に知ることができることを意味します。
技術的ブレークスルー:トレーニングをより効率的にする方法は?
モデル自体に加えて、Olmo 3はトレーニング効率にも多くの努力を払っています。彼らは事前トレーニングに最大1024個のH100 GPUを使用しました。しかし、さらに重要なのは、ソフトウェアレベルでの最適化です。
前の世代と比較して、Olmo 3のポストトレーニングコードの効率は大幅に8倍向上しました。これは、SFTプロセスをより効率的なOlmo Coreコードベースに移行し、「飛行中の重み更新」や「連続バッチ処理」などの技術を導入したことによるものです。簡単に言えば、これによりトレーニングプロセスがより速く、より安価になり、個人開発者や小規模な研究所がこれらのモデルを再現または変更する機会が増えます。
実用的な応用:これは開発者にとって何を意味しますか?
これはすべて素晴らしいことのように聞こえますが、実際の開発にどのように役立ちますか?
医療AIアシスタントを開発していると想像してみてください。従来のモデルでは、最終的な完成品を微調整することしかできず、効果はしばしば制限されます。しかし、Olmo 3の「モデルフロー」があれば、「ミッドトレーニング」段階で介入し、医療専門データを混ぜ込んだり、特定のチェックポイントから独自のバージョンをフォークしたりすることができます。
さらに、Ai2はOlmoTraceツールも提供しています。Ai2 Playgroundでモデルに質問すると、モデルがどのトレーニングデータからその答えを「学んだ」かを即座に追跡できます。これにより、トレーニングデータとモデルの行動の間のギャップが直接縮まり、デバッグやモデルの幻覚を理解する上で非常に価値があります。
よくある質問(FAQ)
以下に、Olmo 3について皆さんが最も関心を持っているいくつかの質問をまとめました。
1. Olmo 3と他のオープンソースモデルの最大の違いは何ですか?
最大の違いは、「透明性」と「モデルフロー」の概念にあります。ほとんどのモデルは最終的な重みのみを提供しますが、Olmo 3は事前トレーニングデータ、中間チェックポイント、トレーニングコードから最終モデルまでの完全なライフサイクルを提供します。これにより、ユーザーは完成品を使用するだけでなく、開発のどの段階からでも介入、変更、または研究することができます。
2. Olmo 3-Thinkの「思考」機能の特別な点は何ですか?
Olmo 3-Thinkは、中間的な推論の軌跡を表示できます。数学やコードなどの複雑な問題を処理する場合、答えに直接ジャンプするのではなく、人間のように思考プロセスを段階的にリストアップします。これにより、精度が向上するだけでなく、開発者が論理的な抜け穴をチェックできるようになり、これは現在の多くのクローズドソースモデルでは不可能です。
3. 7Bと32Bの2つのバージョンのどちらを選ぶべきですか?
- 7Bバージョン: ハイエンドのノートパソコンやコンシューマーグレードのGPUなど、リソースが限られている環境に適しています。応答が速く、リアルタイムの対話やエッジコンピューティングアプリケーションに適しています。
- 32Bバージョン: これはパフォーマンスとリソースのスイートスポットです。論理的推論と知識の幅広さでトップクラスのモデルと競合できるほど強力ですが、何千億ものパラメーターを持つモデルのような巨大なクラスターを必要としないため、学術研究や企業レベルのアプリケーション展開に適しています。
4. Olmo 3を商用目的で使用できますか?
Ai2のドキュメントによると、Olmo 3のすべてのコンポーネント(データ、コード、重み)は、寛容なオープンソースライセンスの下でリリースされています。これは通常、商用利用、変更、および配布が許可されていることを意味しますが、使用前に特定のライセンス条項(Apache 2.0または同様の条項など)を注意深く読むことをお勧めします。
5. モデルとデータはどこでダウンロードできますか?
すべてのモデルの重み、トレーニングデータ、およびツールはHugging Faceでリリースされています。Ai2の公式Hugging Faceページにアクセスしてダウンロードするか、Ai2 Playgroundで直接オンラインでテストできます。
関連リソースリンク
- オンラインデモ(Ai2 Playground): https://playground.allenai.org/
- モデルとデータのダウンロード(Hugging Face): https://huggingface.co/collections/allenai/olmo-3-68e80f043cc0d3c867e7efc6
- 公式ブログ: https://allenai.org/blog/olmo3
- 詳細なテクニカルレポート: https://allenai.org/papers/olmo3
Olmo 3の登場は、AIの開発が閉鎖的なブラックボックスに依存する必要がないことを証明しています。完全なオープン性と透明性を通じて、私たちは真に信頼でき、制御可能で、継続的に進歩する人工知能システムを構築できます。今、ツールはすべてあなたの手の中にあります。それを使って何を創造しますか?


