Xiaomi MiMo-V2-Flashが強力に登場：150億パラメータの計算コストで3090億パラメータのトップクラスの知能を操る

AIモデルが次々と登場するこの時期、開発者や企業はしばしばジレンマに直面します。より高い「IQ」を得るために巨大なパラメータを持つモデルを追求すべきか、それとも計算コストを妥協して反応の速い小規模モデルを選択すべきか？通常、この両方を兼ね備えることは困難です。

しかし、Xiaomiが最近発表したMiMo-V2-Flashは、巧みなバランスポイントを見つけたようです。このモデルは名目上3090億（309B）という総パラメータを持っていますが、実際の動作時には、予算を意識した執事のように、毎回わずか**150億（15B）**のアクティブパラメータしか呼び出しません。これはどういう意味でしょうか？簡単に言えば、超大型図書館の知識の蓄えを持っていながら、情報の検索には数冊の本をめくる時間しかかからないということです。

この記事では、Xiaomiが混合エキスパート（Mixture-of-Experts, MoE）アーキテクチャ、革新的なアテンションメカニズム、そしてマルチトークン予測技術を通じて、どのようにオープンソースモデルの効率の限界に挑戦しているかを探ります。

「大きいことは遅いこと」という迷信を打破：MoEアーキテクチャの魔法

多くの人が「3090億パラメータ」と聞いたとき、最初の反応は「それで動くの？」かもしれません。

正直なところ、もしこれが従来の密（Dense）モデルであれば、天文学的な計算能力が必要になるでしょう。しかし、MiMo-V2-Flashは**混合エキスパート（MoE）**アーキテクチャを採用しています。これを複数の分野の専門家で構成される顧問団と想像してみてください。プログラミングに関する質問をすると、システムはコードを知っている専門家だけを呼び起こして回答させ、文学や歴史を知っている他の専門家は休憩し続けます。

この「疎な活性化（Sparse Activation）」という特性により、MiMo-V2-Flashはトップクラスのモデルの理解能力を維持しながら、推論コストを中規模モデルのレベルまで抑えることができます。プライベートデプロイを行いたいが、ハードウェアコストに押しつぶされたくない企業にとって、これは間違いなく非常に魅力的な選択肢です。具体的な技術的詳細に興味がある場合は、Xiaomiが公開している**技術レポート**を参照してください。アーキテクチャに関する詳細な説明が含まれています。

メモリの救世主：独自のハイブリッドアテンションメカニズム

長いテキストの処理は、常に大規模言語モデルの弱点でした。入力されるテキストが増えるにつれて、モデルが「記憶」しなければならない情報量（KV Cache）は指数関数的に増加し、しばしばグラフィックカードのメモリをパンクさせてしまいます。

この課題を解決するために、MiMo-V2-Flashはハイブリッドアテンションアーキテクチャ（Hybrid Attention Architecture）を導入しました。これは普通のアテンションメカニズムではありません。Xiaomiのエンジニアは巧みに5:1の比率を設計しました。

スライディングウィンドウアテンション (SWA)： ほとんどの層を担当し、私たちが読書するときに現在の段落だけを見つめるように、局所的な文脈のみに注目します。
グローバルアテンション (GA)： 数層ごとに現れ、全体的な情報を統合し、モデルが「木を見て森を見ず」にならないようにします。

この設計はどのような利点をもたらすのでしょうか？公式データによると、KV Cacheのメモリ要件を5.6倍削減しました。256kトークンに及ぶ超長文を処理する場合でも、モデルはスムーズに動作し、「記憶喪失」によって精度が低下することはありません。大量の法的文書や財務レポートを分析する必要があるユーザーにとって、これは間違いなく朗報です。

速度の秘密兵器：マルチトークン予測 (MTP)

メモリの節約に加えて、速度もMiMo-V2-Flashの大きな特徴です。ここでは、**マルチトークン予測 (Multi-Token Prediction, MTP)**というブラックテクノロジーに触れなければなりません。

従来のモデルは慎重なタイピストのように振る舞い、一度に一文字しか打とうとしません。この文字を打ち終えてから、次の文字を考えます。しかし、MiMo-V2-FlashのMTP技術はこの慣習を打ち破りました。**Xiaomiブログ**の紹介によると、このモデルは軽量なMTPモジュールを搭載しており、メインモデルがコンテンツを生成している間に、次に現れる可能性のある複数のトークンを事前に「推測」することができます。

このプロセスを想像してみてください：

予測 (Generate)： MTPモジュールが次のいくつかの単語を一気に下書きします（例：MTP 1, MTP 2, MTP 3）。
検証 (Verify)： メイン言語モデルがその後、並行してこれらの下書きをチェックします。
採用または拒否： 当たっていればそのまま採用し、間違っていれば修正します。

この並列処理方式により、推論速度は最大3倍向上しました。さらに重要なのは、このMTPモジュールは非常に軽量に設計されており、新たな計算のボトルネックにはならないということです。リアルタイムの応答が必要なアプリケーションシナリオ（スマートカスタマーサービスやリアルタイム翻訳など）において、体験の向上は非常に顕著です。

実測データ：単なる数字遊びではない

もちろん、技術がいかに素晴らしくても、実際のパフォーマンスを見なければなりません。複数の権威あるテストにおいて、MiMo-V2-Flashは「圧倒的」な実力を示しました。

コード生成能力を測定するSWE-Bench Verifiedテストでは、**73.4%**という高得点を獲得しました。これは、実際のソフトウェア工学の問題を解決する能力において、多くの同クラスまたはより大規模なオープンソースモデルを上回っていることを意味します。

数学的推論に関しては、高難易度のAIME 2025競技問題に直面し、94.1という驚異的な成績を収めました。これは、単に「話せる」だけでなく、極めて強力な論理的推論能力を備えていることを示しています。コードを書くのに使うにせよ、複雑な論理分析を行うにせよ、快適にこなすことができます。

始め方は？

Xiaomiは今回、十分なオープンソースへの誠意を示しました。MiMo-V2-Flash-Base（基本版）とInstruct（指示微調整版）の重みは、どちらもHugging Faceでダウンロード可能です。

実際にデプロイしたい開発者へのちょっとしたヒントとして、公式はSGLang推論フレームワークの使用を強く推奨しています。このフレームワークは、MiMo-V2-FlashのFP8混合精度推論と前述のMTP加速機能を完全にサポートしており、ハードウェア性能を極限まで引き出すことができます。

完全なデプロイガイドとサンプルコードは、**GitHubページ**で見つけることができます。

よくある質問 (FAQ)

このモデルの立ち位置をより明確にするために、開発者が最も気にする質問をまとめました。

Q1：なぜMiMo-V2-Flashは「小よく大を制す」のに適していると言われるのですか？ 3090億のパラメータを持っていますが、MoEアーキテクチャのおかげで、実際の計算時には150億パラメータしか使用しないからです。これにより、中規模サーバーのコストでトップクラスの大規模モデルの知能を享受でき、予算は限られているが品質にはこだわりたい企業に特に適しています。

Q2：MTP技術は具体的にどのように速度を向上させるのですか？ 従来のモデルはシーケンシャルで、単語を一つずつ生成します。MTPは現在の単語を生成している間に未来のいくつかの単語を予測し、一度に検証します。これはジグソーパズルのようなもので、元々は1ピースずつはめていたのを、一度に数ピース掴んで適当にはめていき、合っているものを残すようなものです。これにより、メモリアクセスの回数が大幅に減少し、全体的なスループットが向上します。

Q3：このモデルは中国語をサポートしていますか？長文処理の効果はどうですか？ サポートしています。そして、5:1のハイブリッドアテンションメカニズム（SWA+GA）のおかげで、256kトークンまでのテキストを処理する際に非常に安定したパフォーマンスを発揮します。「干し草の中の針（Needle In A Haystack, NIAH）」テストでは、大量の情報からキーワードを正確に見つけることができ、中国語の長文ドキュメントの要約や分析に非常に適しています。

Q4：実行するにはどのようなハードウェアが必要ですか？ 同クラスのモデルより軽量ですが、総パラメータ数は存在します。最高のパフォーマンスを得るには、FP8推論をサポートする最新のGPU（H800やH100など）を使用し、SGLangフレームワークと組み合わせることをお勧めします。リソースが限られている場合は、コミュニティから後でリリースされる量子化バージョンに注目することもできます。

結び

MiMo-V2-Flashの登場は、大規模モデル開発の新たなトレンドを私たちに見せてくれました。それは、単にパラメータの積み上げを追求するのではなく、アーキテクチャの精緻化と計算効率の極限までの追求へと転換することです。

開発者にとって、これは刺激的なツールです。オープンソースモデルが性能と効率において、クローズドソースモデルと十分に渡り合える能力を持っていることを証明しました。賢くて速く、超長文も処理できるAIアシスタントを探しているなら、MiMo-V2-Flashは間違いなくダウンロードして試してみる価値があります。

Featured Partners

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

K …

tool

Kimi K2.5モデル解説：オープンソース界の新たな指標、ビジュアルコーディングとマルチエージェント協調の実力

Moonshot AIが最新のオープンソースモデルKimi K2.5を発表。ネイティブなマルチモーダル能力と強力な「群知能エージェント（Agent Swarm）」技術を搭載しています。本記事では、ビジュアルコード生成、マルチエージェント協調、そして複雑なオフィス業務におけるその画期的なパフォーマンスを詳細に分析し、単一エージェントを超える効率をいかにより低いコストで実現しているかを探ります。技術界隈で最近、心躍るニュースがありました。Moonshot AIが正式に Kimi K2.5 をリリースしたのです。これは単なるモデルのアップデートではありません。現在利用可能な最も強力なオープンソースモデルの一つです。約15T（兆）の視覚とテキストの混合トークンによる継続的な事前学習を経て、K2.5はコーディング、視覚理解、そしてエージェント協調（Agent Swarm）において、印象的な実力を示しています。開発者やプロフェッショナルにとって、これは何を意味するのでしょうか？簡単に言えば、渡された動画を理解し、美しいウェブページを書き上げ、さらには100人のAIアシスタントを指揮して同時に調べ物をさせることができるのです。それでは、Kimi K2.5の核心となるいくつかのハイライトを見ていきましょう。視覚とコードの完璧な融合：美的センスを持つエンジニアこれまでAIにウェブページを書かせると、構造は正しいものの見た目が地味なコードが出力されるのが常でした。しかし、Kimi K2.5はこの制限を打ち破りました。ネイティブなマルチモーダル能力を内蔵しているため、「ビジュアルコーディング（Coding with Vision）」を余裕を持ってこなします。ウェブサイトの操作動画やデザインのラフスケッチを渡してみると、K2.5はその中の視覚的なロジック、レイアウトのインタラクション、さらにはアニメーション効果まで理解します。単にテキストの指示を翻訳するだけでなく、「美しさ」と「ユーザーエクスペリエンス」を理解する経験豊富なフロントエンドエンジニアのように振る舞います。例えば、マティスの絵画のようなスタイルのウェブページが欲しいとします。K2.5はコードを生成するだけでなく、ビジュアルデバッキング（Visual Debugging）を通じて自己修正を行い、最終的な仕上がりが芸術的な美しさに合致するようにします。動画や画像から、リッチなスクロール効果を含むインタラクティブなインターフェースへ直接変換できるこの能力は、クリエイティブを完成品に変える敷居を大幅に下げます。群知能エージェントシステム：一騎当千の並列処理能力これはおそらくK2.5の最もSF的な機能でしょう。複雑な難題に直面したとき、単独での戦いは効率が悪いことがよくあります。Kimi K2.5は「群知能エージェント（Agent Swarm）」の概念を導入しました。これは単純なマルチタスクではなく、自ら指揮を執る協調システムです。 100の異なるニッチ市場を調査する必要があると想像してください。従来のAIエージェントなら、一つずつ順に検索していく必要があり、時間がかかるうえにエラーも起きやすいものでした。しかしK2.5のアーキテクチャでは、オーケストレーター（Orchestrator）がタスクを自動的に分解し、最大 100のサブエージェント（Sub-agents）を指揮して同時に作業を開始させます。これらのサブエージェントは訓練されたチームのように、最大 1,500回のツール呼び出しを並列実行します。これにより何が変わるのでしょうか？速度向上：単一エージェントモードと比較して、実行時間が 4.5倍短縮されます。自動編成：ユーザーがワークフローを事前に定義する必要はありません。K2.5がタスクのニーズに応じて、動的にこれらのサブエージェントを生成・管理します。この並列処理能力により、Kimi K2.5は広範囲検索（Wide Search）のようなタスクを処理する際に、驚異的な効率を発揮します。オフィス生産性の実質的な飛躍：実世界の重労働を解決実際のオフィスシーンでは、単純な質疑応答ではなく、高密度で長文のデータ処理に直面することがよくあります。Kimi K2.5はこの点に特化して最適化されています。 1万文字の論文であれ、100ページのドキュメントであれ、K2.5はエンドツーエンドの処理が可能です。単にこれらのデータを「読む」だけでなく、以下のような複雑な操作を実行できます： Word文書に正確な注釈を追加する。 Excelでピボットテーブルや財務モデルを作成する。 PDF内に複雑なLaTeX数式を記述する。内部テスト（AI Office Benchmark）によると、K2.5はこれらの生産性タスクの処理において、前世代のモデルと比較して著しい進歩を遂げており、本来数時間から数日かかる手作業を数分に短縮することができます。大量の文書を扱う専門家にとって、これは間違いなく朗報です。オープンソース界の性能指標：データは語る多くの機能を語りましたが、具体的な性能はどうなのでしょうか？複数の権威あるベンチマークテストにおいて、Kimi K2.5は素晴らしい成績を収めています。コーディング能力：SWE-bench Verifiedテストで 76.8% を達成し、オープンソースモデルの首位を確固たるものにしました。LMSYSの全体的なコードランキングでもトップ7に食い込み、多くのクローズドソースモデルと肩を並べています。エージェント能力：HLE（Human Lifespan Engineering）のフルセットテストで 50.2%、BrowseComp（ウェブブラウジング能力）テストで 74.9% を達成しており、これらのデータは指示の理解とツール操作においてトップクラスの水準にあることを示しています。視覚理解：MMMU ProやVideoMMMUなどの視覚ベンチマークテストでも、K2.5はオープンソース界をリードする実力を示しました。これら一連のデータは、Kimi K2.5が机上の空論ではなく、実世界のアプリケーションシーンにおいて、トップレベルのモデルと競い合う実力を備えていることを証明しています。 Kimi K2.5を使い始めるには？この新しいモデルを試したくてうずうずしているなら、いくつかのアプローチがあります。最も直接的な方法は Kimi.com または Kimiアプリを通じて利用することです。開発者の方は、APIを通じてK2.5の機能を統合することができます。

Jan 29, 2026 Read →

S …

tool

StepFun Step-Audio-R1.1登場：GPT-4oとGeminiを超える音声推論の新たな覇者

音声AIの競争の場において、誰もがOpenAIやGoogleの最新の動きを注視し、彼らが次の世界を震撼させる製品を出すことを期待しています。しかし最近、あるオープンウェイトモデルが静かにランキングのトップに上り詰め、多くのテック巨人を赤面させました。StepFunによって開発された Step-Audio-R1.1 という名のこのモデルは、音声推論能力において新記録を打ち立てただけでなく、リアルタイム対話の流暢さにおいても驚くべき実力を示しました。これが単なる普通の音声モデルだと思っているなら、それは大きな間違いです。Artificial Analysisの音声推論ベンチマーク（Speech Reasoning benchmark）において、96.4% という正解率で王座を獲得し、Grok、Gemini、さらにはGPT-Realtimeさえも大きく引き離しました。一体どうやってこれを成し遂げたのでしょうか？この技術の裏にある秘密を紐解いてみましょう。音声推論の新たな高み：データは嘘をつかないまずは最も直感的なデータのパフォーマンスを見てみましょう。Artificial AnalysisのBig Bench Audioデータセットのテスト結果によると、Step-Audio-R1.1は圧倒的な優位性を示しました。このリストでは、2位のGrok Voice Agentのスコアが92.3%、広く注目されているGPT-4o Realtime Previewは66%から68%の間にとどまりました。これは何を意味するのでしょうか？複雑な音声コマンドの処理、文脈の理解、論理的な推論において、Step-Audio-R1.1のパフォーマンスは、現在市場に出回っている高価な商用モデルよりも正確であることを示しています。これは単純な音声のテキスト変換後の再処理ではなく、真の「エンドツーエンド」（End-to-End）の音声ネイティブ推論です。モデルはテキストの書き起こしを仲介することなく、音の中にある論理を直接理解します。開発者や研究者にとって、これは心躍るニュースです。特に Hugging FaceでStep-Audio-R1.1の重みをダウンロードして、この技術を自ら検証できるとなれば、その衝撃はよりリアルなものになるでしょう。速度と知性のゲーム：従来のトレードオフを打破する長い間、AI分野には無視できない矛盾が存在しました。モデルを賢くしようとすれば、通常は反応速度を犠牲にしなければならず、速さを求めれば、推論の深さを犠牲にしなければならないというものです。しかし、リアルタイムの音声対話において、遅延はユーザー体験の天敵です。返事をするのに5秒も考え込むAIと会話したい人はいません。その気まずい沈黙は没入感を台無しにします。 Step-Audio-R1.1は、「思考ペース発話（Mind-Paced Speaking）」と呼ばれる技術を通じて、この難題を巧みに解決しました。これは、経験豊富な講演者が長時間立ち止まって考える必要がなく、話しながら考え、言葉を組み立てながら深い論理的推論を行えるようなものだと想像してください。これは独自のデュアルブレイン・アーキテクチャ（Dual-Brain Architecture）の恩恵を受けています：構想脳（Formulation Brain）：高レベルの論理的推論と内容の計画を担当します。表現脳（Articulation Brain）：音声生成の流暢さと自然さに焦点を当てます。この分業メカニズムにより、モデルは出力と同時に「思考の連鎖（Chain-of-Thought）」推論を行うことができます。その結果、速度と知性のどちらかを選択することなく、極めて低い遅延を維持しながら複雑なタスクを処理できるようになりました。この流暢さを体験したい方は、ModelScopeのDemoページで試してみることができます。音の中の論理を聞く：音響に基づく推論従来の音声モデルは、しばしば「逆スケーリング（inverted scaling）」の問題に遭遇していました。簡単に言えば、推論のためにテキストの書き起こしに過度に依存することをモデルに強いると、音声に含まれる感情、口調、微妙な間など、人間のコミュニケーションにおいてメッセージを伝える重要な部分を失ってしまう傾向があります。その結果、推論能力がかえって低下してしまいます。 Step-Audio-R1.1は Acoustic-Grounded Reasoning（音響に基づく推論）という戦略を採用しています。もはや音から変換されたテキストを単に「読む」のではなく、音自体の音響的特徴を直接「聴く」のです。反復的な自己蒸留（iterative self-distillation）技術を通じて、このモデルは音声データから直接論理的な手がかりを抽出する方法を学びました。これにより、本来負担になる可能性のあった「熟考」が利点へと変わりました。この技術的道筋は、将来の音声AIがネイティブであり、単なるテキストの運び屋ではなく、音の言語を理解しなければならないことを証明しています。オープンウェイトの意義：単なる技術展示ではない強力なパフォーマンスに加えて、Step-Audio-R1.1の最もエキサイティングな点はその「オープン性」にあります。ほとんどのトップモデルがクローズドソースを選択し、API呼び出しごとに料金を請求する現状において、StepFunはウェイトの公開（Open Weight）を選択しました。「音声推論と入力価格」の比較チャートを見ると、Step-Audio-R1.1は最も魅力的な象限に位置しています：高性能かつコスト制御可能（自己展開の場合）。低遅延の音声アシスタント、リアルタイム翻訳デバイス、または教育支援ツールを構築したい開発者にとって、これは間違いなく強力な後押しとなります。SOTAレベルの音声推論能力を手に入れるために、高価なAPI料金に縛られる必要はもうありません。よくある質問 (FAQ) この技術をより深く理解していただくために、いくつかの重要な質問をまとめました： 1. 「デュアルブレイン・アーキテクチャ」とは何ですか？また、対話の流暢さをどのように向上させますか？「デュアルブレイン・アーキテクチャ」は、Step-Audio-R1.1の核心的な設計理念です。これはモデルを2つの部分に分けます。論理と思考戦略を担当する「構想脳」と、これらのアイデアを流暢な音声に変換する「表現脳」です。これは人間が演説するとき、口では途切れることなく話しながら、頭の中では次の論点を構想しているようなものです。このメカニズムにより、モデルは反応速度を犠牲にすることなく複雑な論理演算を行い、真のリアルタイム対話を実現します。 2. Step-Audio-R1.1の96.4%という正解率はなぜ重要なのですか？この数字はArtificial AnalysisのBig Bench Audioテストによるもので、現在業界で認められている音声モデルの推論能力を測定する基準の一つです。96.4%というスコアは、このモデルが複雑な音声コマンドの理解や多段階タスクの処理において極めて高い精度を持っており、GPT-4o RealtimeやGeminiなどの商用クローズドソースモデルさえも凌駕していることを意味します。これは、オープンソースモデルが音声分野においてテック巨人と正面から対決し、さらには追い越すだけの実力をすでに備えていることを表しています。 3. Step-Audio-R1.1は従来の音声認識（Speech-to-Text）モデルとどう違いますか？従来の手法は通常、「音声からテキスト -> テキスト推論 -> テキストから音声」という3段階のプロセスであり、この過程で口調や感情などの音響情報が失われやすく、遅延も大きくなりがちです。Step-Audio-R1.1は「エンドツーエンド」（End-to-End）のネイティブ音声推論を採用しており、音響特徴上で直接演算を行います。これにより、豊富な音声の詳細が保持されるだけでなく、書き起こしプロセスのエラーも回避され、AIがより賢く、より敏感に反応するようになります。

Jan 16, 2026 Read →

L …

tool

Liquid AI LFM2.5登場：1Bパラメータモデルで端側AIの性能を再定義

Liquid AIがLFM2.5シリーズをリリースしました。1.2Bという軽量なパラメータで、デスクトップ級の性能を実現しています。本記事では、テキスト、ビジョン、日本語、およびネイティブオーディオ処理における突破口を詳細に解説し、このデバイス最適化されたオープンソースモデルが開発者エコシステムをどう変えるかを探ります。最近、AI界のトレンドが静かに変わり始めていることにお気づきでしょうか？超大型モデルが依然として注目を集める一方で、開発者コミュニティで真に話題となっているのは、自身のデバイスで動作する「小さくて美しい」モデルです。昨日、Liquid AIが衝撃的なニュースを発表しました。それがLFM2.5シリーズです。これは単なるバージョンアップではありません。10億（1B）パラメータ級のモデルが、緻密な調整によっていかに驚異的なポテンシャルを発揮できるかを示しています。 LFM2.5の核心的な目標は明確です。強力なAIをクラウドのデータセンターから連れ出し、あなたのノートPCやスマートフォン、さらには車の中に直接住まわせることです。Liquid AIは今回、事前学習データの量を10Tから28Tトークンへと引き上げただけでなく、強化学習を導入して事後学習プロセスを磨き上げました。その結果、Llama 3.2 1BやQwen 3 1.7Bといった強力なライバルを各ベンチマークで圧倒しました。それでは、今回のリリースの重要ポイントを詳しく紐解き、この「小さな巨人」ファミリーに隠された技術を見ていきましょう。 LFM2.5の核心アーキテクチャ：単なるデータの蓄積ではないここで明確にしておくべき重要な点があります。多くの人は、モデルの能力を向上させることは単に「より多くの本を読ませる」ことだと考えています。しかし、LFM2.5の成功はそれだけではありません。これは、LFM2の「デバイス最適化ハイブリッドアーキテクチャ（device-optimized hybrid architecture）」の上に築かれた進化版です。 Liquid AIは今回、より積極的な戦略をとり、事前学習の規模を約3倍（28Tトークン）に拡大しました。これは、モデルの「脳」の容量が限られている中で、より広範で高密度な知識を吸収したことを意味します。さらに重要なのは、チームが事後学習段階で強化学習を多用したことです。これは、モデルに厳しい家庭教師をつけ、論理的推論と指示遂行能力に対して高強度の特訓を行ったようなものです。開発者にとって、これは単に「話せる」モデルを手に入れるだけでなく、ツールの使い方を理解し、複雑な指示を実行できる信頼性の高いエージェント（Agent）を手に入れることを意味します。しかも、これらすべてがオープンウェイト（Open-weight）という前提で実現されています。多様なニーズに応える5つのモデルバリエーション LFM2.5は単一のモデルではなく、異なるシナリオに合わせてカスタマイズされたファミリーです。Liquid AIは今回、特定の用途に最適化された5つのモデルを一挙にリリースしました。 1. 汎用指示モデル (Instruct Model) シリーズのスター製品です。LFM2.5-1.2B-Instructは、ほとんどの開発者にとって最初の選択肢となるでしょう。教師あり微調整（SFT）と多段階の強化学習を経ており、そのままですぐに使用できます。一般的な会話、数学の問題、外部ツールの呼び出しなど、同クラスのモデルを超える安定性を示しています。反応が速く、インターネット接続なしでプライベートなデータを処理できるため、ローカルなCopilotや個人アシスタントの構築に最適です。 2. ベースモデル (Base Model) 自分でカスタマイズしたい技術ファンや企業のR&Dチーム向けに、LFM2.5-1.2B-Baseは最も純粋なキャンバスを提供します。これは指示微調整が行われる前の事前学習済みチェックポイントです。特定のドメイン（医療、法律など）専用のアシスタントを訓練したい場合や、新しい事後学習方法を試したい場合、このベースモデルが最適な出発点となります。 3. 日本語最適化モデル (Japanese Language Model) 言語の真髄は、単なる直訳ではなく、文化や文脈にあります。LFM2.5-1.2B-JPは、日本の環境に合わせて特別に構築されたチャットモデルです。オリジナル版も日本語をサポートしていますが、この専用バージョンは日本語の知識ベースと指示遂行において、このサイズのモデルとしては「最先端（SOTA）」のレベルに達しています。日本市場向けのアプリ開発において、文化的なニュアンスを極めて重視する開発者にとって、かけがえのないツールとなるでしょう。 4. ビジョン言語モデル (Vision-Language Model) 世界は視覚的であり、AIもテキストだけを理解すればいいわけではありません。LFM2.5-VL-1.6Bは、更新されたバックボーンネットワークに基づいて構築されています。最大の進歩は「複数画像の理解」と「多言語ビジョン処理」にあります。数枚の写真を渡し、日本語、英語、あるいはアラビア語で質問しても、正確に理解して回答することができます。ベンチマークでは、現実世界のシナリオを処理する能力が大幅に向上しており、環境を「見て理解する」必要があるエッジデバイスへの展開に非常に適しています。 5. ネイティブオーディオ言語モデル (Audio-Language Model) 正直なところ、今回のリリースで最もエキサイティングな部分です。従来の音声AIのプロセスは非常に煩雑でした。まず音声をテキストに変換（ASR）し、LLMに考えさせ、再びテキストを音声に変換（TTS）します。これでは遅延が大きく、語気や感情も失われがちです。 LFM2.5-Audio-1.5Bは、エンドツーエンドのネイティブ処理方式を採用しています。音声入力を直接受け取り、音声を直接出力します。このアーキテクチャにより、中間段階での情報の損失がなくなり、遅延が大幅に削減されました。公式データによると、その核心となるオーディオデトークナイザーは前世代より8倍高速です。これにより、車載システムやIoTデバイスにおいて、クラウド処理を待つことなく、本物の人間のような即時の音声対話が可能になります。展開とエコシステム：AIを真に実用化するモデルがいかに強力でも、展開が難しければ、それは研究室の玩具にすぎません。Liquid AIはこの点を熟知しており、互換性に非常に力を入れています。LFM2.5はリリース初日から主要な推論フレームワークをサポートしています。 llama.cpp： CPU推論のゴールドスタンダードです。GGUF形式を通じて、LFM2.5は一般的な様々なハードウェア上でスムーズに動作します。 MLX： Appleエコシステムの開発者にとって朗報です。LFM2.5はApple Siliconのユニファイドメモリ・アーキテクチャ向けに最適化されており、MacBookユーザーは極めて高速な推論を享受できます。 ONNX：クラウドからエッジデバイスまで、クロスプラットフォームなハードウェアサポートを提供します。パートナーによる最適化： Liquid AIはAMDおよびNexa AIと提携し、モデルがNPU（ニューラル・プロセッシング・ユニット）上で効率的に動作するようにしました。これは、ノートPCやスマートフォンで長時間AIを動作させ、バッテリー消費を抑えたいユーザーにとって極めて重要です。これらのモデルはHugging Faceで直接ダウンロードできるほか、Liquidの公式ブログで技術的な詳細を確認できます。性能実測：数字が語る実力ベンチマークテストにおいて、LFM2.5はそのサイズ以上の実力を示しました。LFM2.5-1.2B-Instructを例にとると、MMLU-Pro（知識）、IFEval（指示遂行）、GPQA（科学的Q&A）などのテストで、Llama 3.2 1B InstructやGemma 3 1B ITを大きく上回るスコアを記録しました。

Jan 6, 2026 Read →