Microsoft、埋め込みモデルHarrierをオープンソース化：AIエージェント向け32kメモリ検索ブレイン

AIシステムは単純な質疑応答から複雑なタスクの実行へと進化しています。Microsoftの新しいオープンソースモデルHarrierは、100以上の言語サポートと32kのコンテキストウィンドウにより、情報の正確な追跡という難題を解決し、MTEBランキングで世界1位を獲得しました。本記事では、そのコア技術と実装の詳細を解析します。

ご存知でしょうか？人工知能システムの発展軌道は、静かな革命を経験しています。かつて、一般の人々はチャットボットが質問にうまく答えることだけを期待していました。現在、業界はAIが自ら複雑なタスクを実行することを切望しています。これが、いわゆる「エージェント（Agent）」という概念です。

しかし、AIが人間のように資料を収集し、思考を整理し、正しい答えを出さなければならないとき、情報の正確な追跡（トレーサビリティ）が信頼構築の絶対的な鍵となります。

マシンにこの能力を持たせるために、埋め込みモデル（Embedding Model）が極めて重要な役割を果たします。それはAI専用の司書のようなもので、膨大なデータの中で情報の検索、抽出、整理を担当します。

Microsoftは最近、Harrierという名の新しいモデルを正式にリリースしました。この技術は、現代のエージェントシステムのニーズに合わせて特別にカスタマイズされています。検索精度を向上させる助けとなるツールを探しているなら、このオープンソースプロジェクトは間違いなく注目に値します。

なぜAIエージェントは強力なメモリセンターを切望するのか？

想像してみてください。記憶力や検索能力のないロボットが、問題に遭遇するたびにただ勘に頼って答える姿を。そのようなシステムは、決してユーザーの信頼を勝ち取ることはできません。

タスクの複雑さが増すにつれて、AIは複数のデータソースをまたいで検索を行う必要があります。同時に、システムは長時間メモリを維持し、多段階のプロセスの中で絶えずコンテキストを更新しなければなりません。

このような環境下では、埋め込みは単なるシンプルな検索ツールではありません。それは、ランキング、メモリ、およびタスク編成の底層の基盤なのです。

Microsoftの公式ドキュメントによると、堅牢な埋め込み層は大きな利益をもたらします。最も明らかな利点は、初回検索の精度の向上です。

システムが一度で正しいデータを見つけることができれば、当然ながら再試行の回数を大幅に減らすことができます。これは計算コストの顕著な削減を意味すると同時に、エージェントが多段階のタスクを処理する際により安定したパフォーマンスを発揮できるようになります。

要するに、AIのハルシネーション（幻覚）を完全に排除するためには、元の文献と正確に照合できる「脳」を構築しなければならないのです。

なぜ世界の評価ランキングで1位を獲得できたのか？

技術界は常に競争に満ちています。2026年4月現在、Harrierのフラッグシップ版 harrier-oss-v1-27b は、権威ある大規模多言語評価 MTEB-v2 において、合計スコア 74.3 という驚異的な成績を収めました。

この記録は、多くのトップクラスのプロプライエタリ（独占的）製品を打ち負かしました。そのリストには、OpenAIの text-embedding-3-large や Googleの Gemini Embedding シリーズさえ含まれています。

百家争鳴の環境で頭角を現すことができたのは、その強力な多言語対応能力と長文処理能力によるものです。

このモデルはネイティブで100以上の言語をサポートしています。一般的な英語の文献であっても、極めてマイナーな現地の言語データであっても、容易に対応できます。

さらに素晴らしいのは、最大32,768トークンという超巨大なコンテキストウィンドウを備えていることです。

超巨大なコンテキストウィンドウは、一体どれほど実用的なのでしょうか？これは、ユーザーが長いレポート一式や数十ページに及ぶ技術仕様書を一度に投入できることを意味します。システムはデータを細かく分割する必要がなく、そのまま固定サイズのベクトルを生成し、既存の検索システムに完璧に統合できます。

フラッグシップから軽量版まで：あらゆるハードウェアニーズに応えるラインナップ

すべてのプロジェクトに、270億ものパラメータを持つ巨大なモデルをデプロイする予算があるわけではありません。Microsoftはこの点を非常によく理解しています。

そのため、27Bのフラッグシップ版に加えて、0.6Bと270Mの軽量版も同時にリリースされました。

これら二つのコンパクトなモデルは、エッジデバイスやローエンドのハードウェアに新たな可能性を切り拓きました。開発チームは、この目標を達成するために「知識蒸留（Knowledge Distillation）」という技術を活用しました。

このプロセスを、武術の達人がその一生の功力を若い弟子に伝授するようなものだと想像してみてください。

具体的には、Microsoftはまず膨大なリソースを投じて最強のフラッグシップモデルを訓練し、それを教師（ティーチャー）としました。大規模言語モデルがリランキング（再順位付け）を補助して生成した高品質な訓練信号と組み合わせることで、システムはノイズデータを効果的にフィルタリングできます。

小型モデルは学習過程で教師モデルの指導を受けます。サイズは小さくても、同クラスの競合を遥かに凌駕する驚異的な性能を発揮できます。

トレーニングの秘策と技術的突破口を明かす

このようなトップレベルの検索センターを訓練するには、データの質が最優先事項です。開発チームは、複数のソースから多言語のテキストペアを収集するための大規模なデータパイプラインを構築しました。

そして、最もエキサイティングな部分がやってきます。MicrosoftはGPT-5を動員して、膨大な量の合成データを生成しました。

このプロセスで20億を超える多言語テキストペアが生成され、すべてが弱教師ありの対照学習ステージに投入されました。合成データの生成過程では、システムは多様な合成戦略を採用し、データの多様性を大幅に増加させました。

これにより、最終的に訓練されたモデルは、各業界の千差万別な専門用語や文章構造に適応できるようになりました。生医系のジャーナルであっても法律の契約書であっても、隠れた意味的特徴を正確に抽出できます。

最高水準を確保するため、チームはその後さらに1000万件以上の高品質データを使用して精密な微調整（ファインチューニング）を行いました。

アーキテクチャに関しては、このシリーズはデコーダーのみ（Decoder-only）の設計を採用しています。ラストトークンプール（last-token pooling）とL2正規化技術を組み合わせることで、密なテキストベクトルを生成します。

この手法により、入力された文章の長さに関わらず、最終的には一貫した、かつ極めて代表的な数値的特徴に変換されます。

開発者必見の実装ガイドとよくある質問

ここまで読んで、多くのエンジニアがすでにこの技術を自分のプロジェクトに取り入れたいと考えていることでしょう。検索、クラスタリング、意味的類似性の比較、またはリランキングに使用する予定があるなら、以下の実装の詳細を見逃さないでください。

第一に、ライセンスモデルが非常にフレンドリーです。プロジェクト全体が寛容なMITライセンスを採用しているため、学術研究であれ商業利益であれ、ハードルはほとんどありません。

Hugging Faceプラットフォーム上の microsoft/harrier-oss-v1-27b 専用ページから直接モデルの重みをダウンロードできます。Microsoftが発表した公式の技術記事も参考になります。

第二に、最も間違いやすい技術的な詳細です。検索タスクを実行する際、クエリ（Query）側にはタスクを説明する自然言語の指示（インストラクション）を加える必要があります。

例えば、検索文字列の前に「Instruct: Retrieve semantically similar text\nQuery: 」を付け加えます。

このステップを怠ると、パフォーマンスは大幅に低下します。対照的に、ドキュメント（Document）側はそのままの状態で維持し、追加の指示は不要です。

真に実用的なエージェント化されたウェブの未来へ

モデルを一つリリースすること自体は珍しいことではないかもしれませんが、その背後にある戦略的意義は非常に深遠です。

Microsoftがこの技術をリリースした目標は、将来の「エージェント型ウェブ（Agentic Web）」に向けた次世代の底層検索システムを構築することです。この核心的なイノベーションは、将来的にBing検索エンジンにも直接統合されることが予見されます。

これにより、現実世界のユーザーにより正確で意味理解に基づいた検索体験がもたらされます。AI開発に注力している企業にとって、検索の底層への投資と最適化は、もはや無視できないトレンドとなっています。

確固たるメモリと検索センターを確立してこそ、さまざまな革新的なアプリケーションが情報の捏造（幻覚）のリスクを効果的に減らし、真に実用化へと向かうことができるのです。

知識をしっかりと記憶し、正確に思い出すことができるデジタルアシスタントこそが、誰もが真に切望している技術の青写真なのです。

📌 Microsoft Harrier 埋め込みモデルに関する5つの重要Q&A

Q1：誰もがChatGPTのような「生成型」モデルに注目していますが、なぜMicrosoftはHarrierという「埋め込みモデル（Embedding Model）」を強調しているのですか？生成型AIと何が違うのですか？ A1： 生成型AIが話を担当する「口」だとすれば、埋め込みモデルは記憶と資料探しを担当する「脳の検索中枢」です。現代のAIエージェントはただおしゃべりするだけでなく、異なるデータソースをまたいで検索し、長期メモリを維持し、コンテキストを更新する必要があります。Harrierはまさにこれらのタスクのために作られたもので、より正確な初回検索結果を提供し、システムの遅延を削減します。これはAIのハルシネーション（幻覚）を排除し、エージェントを安定して動作させるための鍵となる基盤です。

Q2：Harrierの性能評価は本当にそんなに強いのですか？ A2： はい。2026年4月6日現在、Harrierのフラッグシップ版（harrier-oss-v1-27b）は、権威ある大規模多言語評価 MTEB-v2 において、74.3 というスコアで多くのオープンソースおよびクローズドソースの競合を抑え、世界1位を獲得しました。そのパフォーマンスは、OpenAIの text-embedding-3-large や Googleの Gemini Embedding 2 などのトップクラスの独占モデルをも凌駕しています。

Q3：プロジェクトの予算やハードウェアが限られていますが、この世界1位のモデルを動かせますか？ A3： もちろんです！Microsoftは、誰もが270億パラメータ（27B）の巨体をデプロイできるわけではないことを知っています。そのため、「知識蒸留（Knowledge Distillation）」技術を用いて、フラッグシップモデルを教師とし、その能力をより小型のモデルに伝承させました。公式に 0.6B（6億パラメータ） と 270M（2.7億パラメータ） の軽量版もオープンソース化されています。これらの小型モデルも同様に32kのコンテキストウィンドウを備えており、ローエンドのサーバーやエッジデバイスへのデプロイに非常に適しています。

Q4：Microsoftはどうやって100以上の言語をサポートし、精密な検索ができるモデルを訓練したのですか？ A4： Harrierはデコーダーのみのアーキテクチャを採用し、大規模な合成データを利用して訓練されました。開発チームは GPT-5 を動員し、20億件以上の多言語テキストペアを生成して対照学習（contrastive pre-training）の基礎とし、その後1000万件以上の高品質データを使用して微調整を行いました。この膨大な多言語合成データ戦略が、クロスリンガルな強力な理解力を生み出しました。

Q5：開発者として、Harrierをプロジェクトに統合する際に注意すべき「落とし穴」はありますか？ A5： 非常に重要な実装の詳細があります。検索を行う際、「クエリ（Query）」側にはタスクを説明する自然言語の指示（Instruction）を付け加える必要があります。例えば、Instruct: Retrieve semantically similar text\nQuery: のように。これは、Harrierがこの方法を通じて異なるタスクに合わせて埋め込みベクトルをカスタマイズするためです。指示がない場合、モデルの性能は著しく低下します。対照的に、「ドキュメント（Document）」側のデータを処理する際は、そのままの状態で問題なく、指示を追加する必要はありません。

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

Recommended for You

E …

tool

EmbeddingGemmaの全貌：Googleがオンデバイス向けに構築したオープンソースの埋め込みモデル

Googleの最新のEmbeddingGemmaモデルを探る。わずか3億のパラメータ規模で、エンドデバイス上でトップクラスのパフォーマンスを実現します。本稿では、その技術的な詳細、応用シナリオを深く掘り下げ、プライバシーを保護し、インターネット接続を必要としない強力なAIアプリケーションを迅速に構築する方法を教えます。オンデバイスAIの新時代は、EmbeddingGemmaから始まる AI技術が急速に発展する今日、私たちはクラウドの強力な計算能力にますます慣れ親しんでいます。しかし、AIをスマートフォンやノートパソコン、さらにはもっと小さなIoTデバイスでスムーズに動作させ、同時にプライバシーと効率を両立させたいとなると、課題は大きくなります。結局のところ、すべてのシナリオで安定した高速なインターネット接続が利用できるわけではありません。これこそが、GoogleがEmbeddingGemmaをリリースした理由です。これは、オンデバイスでの実行専用に設計された、まったく新しいオープンソースの埋め込みモデルです。軽量で高速、そして驚くべきパフォーマンスを誇り、開発者はオフライン状態でも高品質なAI機能を提供するアプリケーションを構築できます。待って、それで「埋め込み」とは一体何？ EmbeddingGemmaのすごさを深く理解する前に、少し時間を取って中心的な概念である「埋め込み（Embedding）」を理解しましょう。それを一種の「翻訳機」だと考えてみてください。この翻訳機の仕事は、人間の言語（文や文書など）を、コンピュータが理解し計算できる数字、つまり長い数字のベクトルに変換することです。このベクトルは、多次元空間におけるテキストの座標のようなもので、テキストの深い意味を捉えています。なぜこれが重要なのでしょうか？テキストが意味のある数字に変換されると、コンピュータはそれらの間の「距離」を計算できるようになるからです。意味的に近い単語や文は、ベクトル座標が近くなります。この技術は、次のような多くのクールなAIアプリケーションの基盤となっています。セマンティック検索：もはやキーワードを照合するだけでなく、検索意図を真に理解します。「アウトドアスポーツに適した軽量ジャケット」と検索すると、システムは「防風防水の登山ジャケット」と説明されている商品を見つけることができます。検索拡張生成（RAG）：これは現在最もホットな技術の1つです。大規模言語モデル（Gemma 3など）が特定の分野の質問に答える必要がある場合、RAGはまず埋め込み技術を使用して、データベース（会社の内部文書、個人のメモなど）から最も関連性の高い情報をいくつか見つけ出し、それを言語モデルに渡して正確な回答を生成させます。簡単に言えば、埋め込みの品質が、これらのアプリケーションの上限を直接決定します。優れた埋め込みモデルは、言語の微妙な違いや複雑さをより正確に理解できます。小さくても強力：EmbeddingGemmaの真の実力を見る高品質な意味理解を達成するには、モデルはきっと大きいのだろうと思うかもしれません。EmbeddingGemmaは、この印象を完全に覆します。わずか3億800万のパラメータしか持たないこの軽量モデルは、権威ある多言語評価ベンチマーク**MTEB（Multilingual Text Embeddings Benchmark）**において、その2倍のサイズのモデルに匹敵するトップクラスのパフォーマンスを示しました。さて、この画像のMarkdown形式は次のとおりです。 MTEB（多言語、v2）スコアのモデルサイズ別分布図いくつかの多言語埋め込みモデルのサイズと、MTEB（Massive Text Embedding Benchmark）v2での平均タスクスコアを比較します。 Y軸：平均タスクスコア X軸：モデルサイズ（単位：百万）モデル名モデルサイズ（概算） MTEBスコア（概算） granite-embedding-278m-multilingual 278M 54.0 gte-multilingual-base 280M 58.5 EmbeddingGemma 335M 61.0 multilingual-e5-large 560M 58.5 jina-embeddings-v3 570M 58.5 bge-m3 580M 59.5 Owen-Embedding-0.6B 600M 64.5 MTEB（多言語、v2）モデル評価スコアこの表は、いくつかのオープンソースの汎用埋め込みモデル*のMTEB（多言語、v2）ベンチマークでのパフォーマンスを比較したもので、平均タスクスコア、および検索、分類、クラスタリングなどの特定のタスクのスコアが含まれています。モデルサイズ平均タスク検索分類クラスタリング EmbeddingGemma 308M 61.15 62.49 60.90 51.17 granite-embedding-278m<br>-multilingual 278M 53.74 52.20 54.09 41.41 gte-multilingual-base 305M 58.24 56.50 57.17 44.33 multilingual-e5-large 560M 58.55 54.08 59.43 41.70 bge-m3 568M 59.56 54.60 60.35 40.88 jina-embeddings-v3 572M 58.37 55.76 58.77 45.65 Owen-Embedding-0.6B 595M 64.34 64.65 66.83 52.33 *注：汎用オープン埋め込みモデル（GENERAL-PURPOSE OPEN EMBEDDING MODELS）

Sep 5, 2025 Read →

G …

Article

Google Gemini Embedding APIが公開！優れたパフォーマンス、超手頃な価格、開発者の準備はできていますか？

Googleは、Gemini Embedding Modelをすべての開発者に公式に公開しました。これは最先端のAI技術を代表するだけでなく、100万トークンあたりわずか0.15ドルという驚きの価格で提供されます。この記事では、そのパフォーマンス、価格の利点、および実用的なアプリケーションについて詳しく分析し、このゲームチェンジングなツールを包括的に紹介します。人工知能の波は前例のない速さで押し寄せており、Googleはこの競争の主要な推進力であることは明らかです。つい最近、テクノロジー界は大きなニュースを受け取りました。待望のGoogle Gemini Embedding Modelがプレビュー段階を終え、Gemini APIとVertex AIですべての開発者に一般提供されるようになりました！なぜこのニュースがそれほど重要なのでしょうか？簡単に言えば、独立した専門家であれ、大企業のチームであれ、どの開発者も、Googleの最先端のセマンティック理解技術を非常に魅力的なコストでアプリケーションに統合できるようになったことを意味します。では、「埋め込みモデル」とは一体何なのでしょうか？ Geminiの力に飛び込む前に、「埋め込みモデル」とは何かについて少し話しましょう。それは翻訳者のようなものだと考えることができますが、言語を翻訳する代わりに、「概念」を翻訳します。このモデルは、単語、文、さらには記事全体を「ベクトル」と呼ばれる一連の数値に変換できます。これらの数値の魔法は、テキストの背後にある意味的および文脈的な関係を捉えることです。たとえば、「ラップトップ」と「ノートブックコンピュータ」という単語は、表面的には異なりますが、埋め込みモデルによって生成されたベクトル空間では非常に近くなります。この技術は、よりスマートな検索エンジン、正確な製品推奨システム、質問を理解できるAIアシスタントなど、多くのインテリジェントなアプリケーションの基礎となります。安いだけでなく、強力：Gemini Embedding Modelの価格とパフォーマンスの分析新しいツールを評価するとき、私たちは通常、価格とパフォーマンスの2つのことを気にします。そして、これらの両方の分野で、Geminiは印象的な成績表を提出しました。まず、価格について話しましょう。Gemini Embedding Modelの価格は、入力トークン100万あたりわずか0.15ドルです。正直なところ、この価格は非常に破壊的です。OpenAIのtext-embedding-3-large（約0.13ドル/100万トークン）など、市場の他のトップモデルと比較すると、価格は似ていますが、Cohereの多言語モデル（約1.00ドル/100万トークン）よりもはるかに低いです。これにより、高性能なAI技術はもはや大企業だけの贅沢品ではなくなります。もちろん、低価格だけでは十分ではありません。本当に重要なのはパフォーマンスです。そして、これは単なる話ではなく、公開データによって裏付けられています。広く採用されている**MTEB（Massive Text Embedding Benchmark）**によると、gemini-embedding-001モデルは、多くの競合他社を全面的に上回っています。チャートから、明確にわかります：全体的なパフォーマンス（平均タスク）： Geminiのスコア68.37は、レガシーGoogleモデル（62.13）、Cohere（61.12）、OpenAI（58.93）よりも大幅に高いです。これは、Geminiが多様なタスク全体で最高の平均パフォーマンスを持っていることを示しています。クロスリンガル能力（XOR-Retrieve）：クロスリンガル検索タスクでは、Geminiは90.42という驚異的なスコアを達成し、他のモデルを大きく引き離しました。これは、多言語コンテンツを処理する卓越した能力を示しており、グローバルなユーザーベースにサービスを提供するアプリケーションにとって大きな利点です。コード理解（MTEB Code, v1）： Geminiはコード埋め込みでも76という高得点を記録し、人間の言語だけでなくプログラミング言語も理解できることを示し、開発者ツールの革新の可能性を広げました。これは開発者にとって何を意味するのか？実用的なアプリケーションシナリオを見る理論については説明しましたが、この技術は実際にどこで使用できるのでしょうか？答えは、テキストを「理解」する必要があるほとんどすべてのシナリオです。インテリジェントなセマンティック検索：あなたのウェブサイトの検索機能がもはやキーワードを照合するだけではないと想像してみてください。ユーザーが「夏用の通気性の良い男性用靴」を検索すると、システムはタイトルにそれらの単語が含まれる製品を表示するだけでなく、キャンバスシューズやサンダルを自動的に推奨します。これがセマンティック検索の力です。正確な推奨システム： eコマースプラットフォーム、ニュースウェブサイト、ビデオストリーミングサービスのいずれであっても、Gemini Embedding Modelを使用してユーザーの過去の行動を分析し、意味的に関連するコンテンツを推奨することで、ユーザーエクスペリエンスとエンゲージメントを大幅に向上させることができます。 Q&AボットとRAG：これは現在最もホットなアプリケーションの1つです。ドキュメントライブラリ（製品マニュアル、社内ナレッジベースなど）をベクトルに変換することで、AIは最も関連性の高い情報を迅速に取得して、ユーザーに正確な回答を提供できます。これがRetrieval-Augmented Generation（RAG）技術の中核です。テキスト分類とクラスタリング：大量の顧客フィードバック、レビュー、記事を自動的に分類（肯定的、否定的、提案など）したり、クラスタリング（類似したトピックのコンテンツをグループ化）したりして、企業が市場の動向を迅速に把握するのに役立ちます。今すぐ始めましょう：Gemini APIとVertex AIでの使用方法インスピレーションを感じましたか？Googleは、開発者が簡単に始められるように2つの主要な方法を提供しています： Gemini API：すぐに始めたい場合や、プロジェクトのプロトタイプを開発したい場合は、Gemini APIが最適です。**Google AI Studio**にアクセスして、Webベースのインターフェースで直接体験およびテストでき、非常に直感的です。 Vertex AI：より完全なMLOps機能、エンタープライズグレードのセキュリティ、ガバナンスを求めるチーム向けに、Vertex AIはより強力なプラットフォームを提供します。他のGoogle Cloudサービスとシームレスに統合でき、大規模で高信頼性のアプリケーションの展開に適しています。どちらのプラットフォームを選択しても、呼び出すモデル名はgemini-embedding-001です。結論：AI民主化の新章 Google Gemini Embedding Modelの一般提供は、単なる新製品の発売以上のものです。トップクラスのAI技術がこれまで以上にアクセスしやすく、ユーザーフレンドリーになっていることを示しています。その優れたパフォーマンス、非常に競争力のある価格設定、幅広い応用可能性により、Gemini Embedding Modelは、世界中の開発者が次世代の革新的なインテリジェントアプリケーションを解き放つための強力な鍵を間違いなく提供します。既存の製品を最適化したい場合でも、まったく新しいAIサービスを構想したい場合でも、今が始めるのに最適な時期です。

Jul 16, 2025 Read →