【Edge AI 解析】Liquid AI LFM2.5-8B-A1B:ノート PC やスマホで軽快に動作する混合専門家モデル
Liquid AI が新たに発表したエッジモデル LFM2.5-8B-A1B の技術的ブレイクスルーを探索します。128K コンテキストへの拡張から、ユニークな「推論専用設計」まで。この MoE モデルがいかにクラウドに頼らず、一般的なハードウェアを強力かつプライバシー性の高い専用スーパーアシスタントに変えるのかを解析します。
性能が控えめなノート PC で、強力な混合専門家モデル (MoE) をスムーズに動かすことを考えたことはありますか?多くの人は、それには極めて高価なサーバーが必要だと思っているかもしれません。しかし、その状況は今、完全に変わりつつあります。
クラウドコンピューティングへの過度な依存は、プライバシーのリスクやネットワークの遅延を招きます。そのため、エッジ AI (Edge AI) は極めて重要な発展方向となっています。Liquid AI は 2026 年 5 月 28 日、LFM2.5-8B-A1B を正式にリリースし、消費者向けハードウェアに新たな解を提示しました。一般のノート PC やスマートフォン向けに設計されたこのモデルは、完全にオフラインでのツール呼び出しと指示追従能力を最大の売りとしています。コミュニティでは、「ポテト(低スペック)」級の古いデバイスでも動くと冗談を言う人もいるほどです。これは多少の誇張かもしれませんが、ハードウェア要件が極めて低いのは事実であり、強力な AI をポケットに入れるというビジョンを真に実現しています。
コアスペックの飛躍:128K コンテキストと 38T 事前学習の威力
このモデルの内部には何が隠されているのでしょうか。前世代のバージョンと比較して、LFM2.5-8B-A1B のコアスペックは飛躍的な成長を遂げました。開発チームは事前学習のデータ量を 12T から 38T トークンへと激増させ、大規模な強化学習を実施しました。
同時に、コンテキストウィンドウも従来の 32K から 128K へと大幅に拡張されました。これにより、デバイス上で極めて長いテキストや複雑な契約書などを直接処理できるようになりました。正直なところ、長文の処理は小型モデルの弱点でしたが、この新モデルはその壁を軽々と越えてきました。さらに、多言語処理の効率を高めるため、語彙サイズ (Vocabulary) は 2 倍の 128K に拡張されました。この変更は、非ラテン語圏のユーザーにとって非常に有益です。ヒンディー語、タイ語、ベトナム語、アラビア語などのトークナイズ効率が著しく向上しました。つまり、これらの言語を扱う際により賢くなり、消費する計算リソースも少なくて済むということです。
特殊な「推論専用」設計とハルシネーション抑制メカニズム
技術的な詳細に目を向けると、一見矛盾しているような設計があります。LFM2.5-8B-A1B は「推論専用 (Reasoning-only)」戦略を採用しています。小型モデルに回答前の明確な「思考の連鎖 (Chain-of-Thought)」を強制するのは、動作を遅くするように聞こえるかもしれません。しかし、これには説明が必要です。
混合専門家 (MoE) アーキテクチャを採用しているため、1 回の起動でアクティブになるパラメータは非常にわずかです。これにより、思考トークンを生成する計算コストが極めて低く抑えられています。そのため、速度を一切犠牲にすることなく、高品質な回答を導き出すことができます。もちろん、エッジモデルには知識容量に限界があり、ハルシネーション(もっともらしい嘘)を起こしやすいという先天的な弱点があります。これを克服するため、研究チームは avg@k 報酬に基づく強化学習フェーズを導入しました。このメカニズムは非常に興味深く、モデルに「自分の限界を知る」ことを教えます。自身の知識の範囲を超える問題に直面した際、モデルは能動的に回答を放棄 (abstention) し、知識の境界線を明確に引くようになります。これにより、回答の信頼性が向上するだけでなく、支離滅裂な回答をする確率も大幅に低下しました。
驚異的なハードウェア効率:ノート PC やスマホでスムーズに動作
理論は素晴らしいですが、実際の数値はどうでしょうか。ここが最も驚くべきポイントです。Apple M5 Max チップでは、デコード速度が毎秒 253 トークンに達します。AMD Ryzen AI Max+ 395 プロセッサでも、毎秒 146 トークンという優れたパフォーマンスを発揮します。驚くべきことに、この全プロセスで消費されるメモリは 6 GB 未満です。Qualcomm のスマートフォン用チップであっても、毎秒約 30 トークンという実用的な速度を維持できます。
エコシステムのサポート体制は、新技術の普及を左右します。公式リリースの初日から、このモデルは多くの主要な推論フレームワークを全面的にサポートしました。体験してみたい方は、いつでも Hugging Face から公式の GGUF 形式ファイルをダウンロードできます。llama.cpp や Apple Silicon 専用の MLX を通じて、すぐにローカル環境で強力な AI を動かすことができます。企業が単一の NVIDIA H100 を使用して GPU デプロイを行う場合、vLLM や SGLang フレームワークと組み合わせることで、毎秒 18.5K トークンという驚異的なスループットを実現することも可能です。
実戦デモ:完全にオフラインの LocalCowork デスクトップエージェント
まとめとして、実戦的な応用シーンを見てみましょう。公式にオープンソース化された LocalCowork デスクトップエージェントは、その強力なツール呼び出し (Tool calling) 能力を完璧に証明しています。
クラウドの支援や API キーを一切必要とせず、データがマシン外に出ることもない環境下で、1 台のノート PC 上でスムーズに動作します。このシステムは、13 の MCP サーバーにまたがる 67 種類の異なるツールを流暢に制御できます。ツール呼び出しの遅延は 1 秒を遥かに下回り、究極のプライバシーと信頼性を示しています。強力な計算力を日常のデバイスに凝縮することで、オフライン作業はもはや夢物語ではなくなりました。将来のスマートフォンや薄型ノート PC には、高い知能と絶対的なプライバシー保護を兼ね備えた専用デジタルアシスタントが標準搭載されることになるでしょう。
よくある質問 (Q&A)
Q1:LFM2.5-8B-A1B とは何ですか?一般的な大規模言語モデルと何が違うのですか? A1: LFM2.5-8B-A1B は Liquid AI が発表したエッジ (Edge) 混合専門家モデル (MoE) で、消費者向けハードウェアでの高速かつ信頼性の高いツール呼び出しのために設計されています。最大の特長はハードウェア要件が極めて低いことで、一般的なノート PC やスマホで完全にオフライン動作し、プライバシーを保護しながら強力な AI を日常のデバイスにもたらします。
Q2:この新バージョンは、長文の処理や多言語対応においてどのような進歩がありますか? A2: 前世代と比較して、コンテキストウィンドウが 32K から 128K へと大幅に拡張され、極めて長い文書も容易に扱えるようになりました。また、語彙サイズ (Vocabulary) も 2 倍の 128K になり、ヒンディー語、タイ語、ベトナム語、アラビア語などの非ラテン語圏の処理効率が著しく向上しています。
Q3:小型のエッジモデルには「ハルシネーション」の問題がつきものですが、どのように克服していますか? A3: 特殊な「推論専用 (Reasoning-only)」設計を導入し、最終回答の前に明確な思考の連鎖を強制的に生成させます。さらに、avg@k 報酬に基づく強化学習メカニズムにより、知識の及ばない範囲では「回答を能動的に放棄 (abstention)」することを教え、知識の境界線を明確にすることでハルシネーションの確率を大幅に下げています。
Q4:ハードウェア要件は本当にそんなに低いのですか?実際の速度は? A4: 実行効率は驚異的で、消費メモリは 6 GB 未満です。公式テストでは、Apple M5 Max チップで毎秒 253 トークン、AMD Ryzen AI Max+ 395 で毎秒 146 トークン、一般的なスマホチップでも毎秒約 30 トークンの流暢な速度を記録しています。
Q5:ローカルデプロイを検討する場合、どのような推論フレームワークをサポートしていますか? A5: 優れた互換性を備えており、初日から llama.cpp、MLX (Apple Silicon 向け)、vLLM、SGLang、ONNX などの主要フレームワークをネイティブサポートしています。開発者は Hugging Face からオープンソースの重みをダウンロードし、簡単にローカルアプリケーションを構築できます。


