Kimi Linearの登場：Moonshot AIはいかにしてパフォーマンスと効率の完璧なバランスを達成したか？

Moonshot AIが発表したKimi Linearアーキテクチャを深く掘り下げます。このハイブリッド線形アテンション技術は、長短のテキストタスクで従来のモデルを凌駕するだけでなく、デコード効率を数倍に向上させ、大規模言語モデルの将来の発展に新たな方向性を示しています。**

百万トークン時代の「甘い負担」

大規模言語モデル（LLM）は、かつてないほどのスピードで進化しており、数千トークンのコンテキスト長から、今や百万トークンという驚異的な水準にまで達しています。これは間違いなくエキサイティングな進歩であり、モデルが本一冊、完全なコードベース、あるいは長大な財務報告書を処理できることを意味します。しかし、この「甘さ」の裏には、巨大な計算上の「負担」が隠されています。

ご存知でしたか？従来のTransformerアーキテクチャの中核であるSoftmaxアテンションメカニズムは、長いテキストを処理する際に、その計算の複雑さとメモリ消費量が二次関数的に急増します。これは、お使いのコンピュータのメモリのようなもので、処理するデータが少し増えるたびに、占有スペースが指数関数的に増加するのです。中でも「KVキャッシュ」と呼ばれるメカニズムは特にリソースを消費し、入力シーケンスの増加に伴って線形的に膨張し、長いテキストの推論における主要なボトルネックとなっています。

そこで問題となるのが、百万字の大著を理解でき、かつ短いメッセージを処理するように迅速に応答できるモデルを持つことができるか、ということです。これは魚と熊の手のひらを両方手に入れるような難題に思えます。

Kimi Linear：単なる「もう一つ」の新しいアーキテクチャではない

誰もが答えを探し求めている中、Kimiインテリジェントアシスタントを開発したMoonshot AI（月之暗面）チームが、驚くべき技術報告書を持って現れました。彼らは全く新しいアーキテクチャ、Kimi Linearを紹介しました。

これは、また一つの中途半端な改良モデルではありません。Kimi Linearは、ハイブリッド式の線形アテンションアーキテクチャであり、短いテキストの理解、長いテキストの推論、あるいは複雑な強化学習タスクなど、あらゆる状況下で、公正な比較基準において、従来の全アテンション（Full Attention）モデルを全面的に凌駕したのは初めてのことです。

少し抽象的に聞こえますか？実際のデータを見てみましょう。100万トークンの長さのコンテキストを処理する際、Kimi Linearのデコードスループット（つまり速度）は6.3倍に向上し、同時に重要なKVキャッシュの使用量を75%削減することができました。これは、より速く走り、より少なく食べることを意味します。一体どのようにしてこれを達成したのでしょうか？

中核の魔法：より洗練されたKimi Delta Attention (KDA)

Kimi Linearの秘密兵器は、その中核モジュールである**Kimi Delta Attention (KDA)**にあります。

従来の線形アテンションを、記憶力は良いが少し大雑把な脳だと想像することができます。それはすべてのことを覚えようとしますが、「選択的に忘れる」方法をあまり知りません。一方、KDAは、精密に訓練され、きめ細かい記憶管理能力を持つ脳のようなものです。

KDAは、既存のGated DeltaNet技術を拡張し、より繊細な「チャネルワイズゲーティング」メカニズムを導入しました。簡単に言うと、すべての情報に対して保持するか忘れるかを一律に決定するのではなく、各特徴次元（情報の異なる側面と理解できる）に対して独立した忘却率を設定することができます。これにより、モデルは記憶をより正確に制御し、無関係なノイズを捨て、同時に重要な情報をしっかりと記憶することができます。

さらに素晴らしいことに、KDAは設計当初からハードウェア効率を十分に考慮しています。特別に作られたブロック並列アルゴリズムにより、その計算効率は汎用のDPLR（Diagonal-Plus-Low-Rank）法よりも100%近く向上し、性能を保証すると同時に速度も最大限に引き上げています。

強力な連携：3:1の黄金混合比

KDAはすでに非常に強力ですが、純粋な線形アテンションは、いくつかの極端に細かい情報検索タスクにおいて、理論的にはまだ限界があります。この問題を解決するために、Kimi Linearは巧妙なハイブリッド戦略を採用しました。

従来のグローバルアテンション（論文ではMLAと呼ばれる）を完全に放棄するのではなく、両者を組み合わせて、黄金比とも言える3:1の階層的ハイブリッドアーキテクチャを形成しました。具体的には、モデル内の効率的なKDA線形アテンション層3層ごとに、強力なMLAグローバルアテンション層が1層組み合わされています。

このような設計の利点は明らかです。

KDA層が主力として、トークン情報の大部分を処理し、計算コストとメモリコストを大幅に削減します。
MLA層は定期的な「情報総覧」のように機能し、モデルが長いシーケンスを処理する際に、重要なグローバルな関連性を失わないようにします。

この組み合わせにより、Kimi Linearは線形アテンションの速度と効率を享受しつつ、グローバルアテンションの精度と強力さを保持し、最終的にパフォーマンスと効率の間で完璧なバランスを見つけました。

実力がものを言う：主要な評価基準を席巻

理論がどれほど優れていても、最終的には実力で証明されなければなりません。Kimi Linearは、一連の厳しいベンチマークテストで、その卓越した性能を実証しました。

MMLU-Proなどの短いテキストタスクにおいて、Kimi Linearのパフォーマンスは、全アテンションモデル（MLA）を含むベースラインを全面的に上回りました。これは、「線形アテンションは短いテキストではパフォーマンスが劣る」という従来の印象を覆しました。

一方、長いテキストタスクでは、Kimi Linearは圧倒的な優位性を示しました。RULERのような128kのコンテキスト長のテストでは、84.3という高得点で競合他社を大きく引き離し、長いシーケンスを処理する際の強力な能力を証明しました。

もちろん、最も印象的なのは推論効率です。報告書のグラフからわかるように、デコード長が100万トークンに達したとき、Kimi Linearのトークンあたりの出力時間（TPOT）はわずか1.84ミリ秒であるのに対し、全アテンションモデルは11.48ミリ秒を必要とします。この6.3倍の速度差は、ユーザーがモデルとの長時間の対話において、ほとんど遅延を感じないことを意味します。

コミュニティのために生まれる：オープンソースの力

Moonshot AIチームは、技術の進歩を促進する最善の方法は、開放と協力であることを深く理解しています。そのため、彼らはKimi Linearの重要な成果をコミュニティ全体にオープンソースとして公開することを選択しました。

これには以下が含まれます。

中核となるKDAオペレータ
vLLM推論フレームワークとの統合実装
事前学習済みおよび命令微調整済みのモデル重み

これは、世界中の開発者や研究者がこの最先端技術をダウンロードして使用できることを意味します。Hugging Faceでモデルを見つけ、GitHubで関連コードを確認できます。この動きは、間違いなく高性能な大規模言語モデルの普及と革新を加速させるでしょう。

結論：Kimi Linearは単に速いだけでなく、未来である

Kimi Linearの登場は、単に高速なモデルを発表しただけではありません。それは、最高のパフォーマンスと究極の効率を両立させた、厳密に検証されたLLMアーキテクチャの新しいパラダイムを提供します。それは、モデルの「知能」と「速度」の間で苦しい選択をする必要がないことを証明しました。

AIアプリケーションが私たちの生活にますます深く浸透するにつれて、特に大量のリアルタイム情報を処理する必要があるインテリジェントエージェント（Agentic Intelligence）の分野では、Kimi Linearのような強力で効率的なアーキテクチャが不可欠な基盤となるでしょう。これはMoonshot AIの勝利だけでなく、AI分野全体がより実用的で普及した未来へと向かう重要な一歩です。

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

Recommended for You

K …

tool

Kimi K2.5モデル解説：オープンソース界の新たな指標、ビジュアルコーディングとマルチエージェント協調の実力

Moonshot AIが最新のオープンソースモデルKimi K2.5を発表。ネイティブなマルチモーダル能力と強力な「群知能エージェント（Agent Swarm）」技術を搭載しています。本記事では、ビジュアルコード生成、マルチエージェント協調、そして複雑なオフィス業務におけるその画期的なパフォーマンスを詳細に分析し、単一エージェントを超える効率をいかにより低いコストで実現しているかを探ります。技術界隈で最近、心躍るニュースがありました。Moonshot AIが正式に Kimi K2.5 をリリースしたのです。これは単なるモデルのアップデートではありません。現在利用可能な最も強力なオープンソースモデルの一つです。約15T（兆）の視覚とテキストの混合トークンによる継続的な事前学習を経て、K2.5はコーディング、視覚理解、そしてエージェント協調（Agent Swarm）において、印象的な実力を示しています。開発者やプロフェッショナルにとって、これは何を意味するのでしょうか？簡単に言えば、渡された動画を理解し、美しいウェブページを書き上げ、さらには100人のAIアシスタントを指揮して同時に調べ物をさせることができるのです。それでは、Kimi K2.5の核心となるいくつかのハイライトを見ていきましょう。視覚とコードの完璧な融合：美的センスを持つエンジニアこれまでAIにウェブページを書かせると、構造は正しいものの見た目が地味なコードが出力されるのが常でした。しかし、Kimi K2.5はこの制限を打ち破りました。ネイティブなマルチモーダル能力を内蔵しているため、「ビジュアルコーディング（Coding with Vision）」を余裕を持ってこなします。ウェブサイトの操作動画やデザインのラフスケッチを渡してみると、K2.5はその中の視覚的なロジック、レイアウトのインタラクション、さらにはアニメーション効果まで理解します。単にテキストの指示を翻訳するだけでなく、「美しさ」と「ユーザーエクスペリエンス」を理解する経験豊富なフロントエンドエンジニアのように振る舞います。例えば、マティスの絵画のようなスタイルのウェブページが欲しいとします。K2.5はコードを生成するだけでなく、ビジュアルデバッキング（Visual Debugging）を通じて自己修正を行い、最終的な仕上がりが芸術的な美しさに合致するようにします。動画や画像から、リッチなスクロール効果を含むインタラクティブなインターフェースへ直接変換できるこの能力は、クリエイティブを完成品に変える敷居を大幅に下げます。群知能エージェントシステム：一騎当千の並列処理能力これはおそらくK2.5の最もSF的な機能でしょう。複雑な難題に直面したとき、単独での戦いは効率が悪いことがよくあります。Kimi K2.5は「群知能エージェント（Agent Swarm）」の概念を導入しました。これは単純なマルチタスクではなく、自ら指揮を執る協調システムです。 100の異なるニッチ市場を調査する必要があると想像してください。従来のAIエージェントなら、一つずつ順に検索していく必要があり、時間がかかるうえにエラーも起きやすいものでした。しかしK2.5のアーキテクチャでは、オーケストレーター（Orchestrator）がタスクを自動的に分解し、最大 100のサブエージェント（Sub-agents）を指揮して同時に作業を開始させます。これらのサブエージェントは訓練されたチームのように、最大 1,500回のツール呼び出しを並列実行します。これにより何が変わるのでしょうか？速度向上：単一エージェントモードと比較して、実行時間が 4.5倍短縮されます。自動編成：ユーザーがワークフローを事前に定義する必要はありません。K2.5がタスクのニーズに応じて、動的にこれらのサブエージェントを生成・管理します。この並列処理能力により、Kimi K2.5は広範囲検索（Wide Search）のようなタスクを処理する際に、驚異的な効率を発揮します。オフィス生産性の実質的な飛躍：実世界の重労働を解決実際のオフィスシーンでは、単純な質疑応答ではなく、高密度で長文のデータ処理に直面することがよくあります。Kimi K2.5はこの点に特化して最適化されています。 1万文字の論文であれ、100ページのドキュメントであれ、K2.5はエンドツーエンドの処理が可能です。単にこれらのデータを「読む」だけでなく、以下のような複雑な操作を実行できます： Word文書に正確な注釈を追加する。 Excelでピボットテーブルや財務モデルを作成する。 PDF内に複雑なLaTeX数式を記述する。内部テスト（AI Office Benchmark）によると、K2.5はこれらの生産性タスクの処理において、前世代のモデルと比較して著しい進歩を遂げており、本来数時間から数日かかる手作業を数分に短縮することができます。大量の文書を扱う専門家にとって、これは間違いなく朗報です。オープンソース界の性能指標：データは語る多くの機能を語りましたが、具体的な性能はどうなのでしょうか？複数の権威あるベンチマークテストにおいて、Kimi K2.5は素晴らしい成績を収めています。コーディング能力：SWE-bench Verifiedテストで 76.8% を達成し、オープンソースモデルの首位を確固たるものにしました。LMSYSの全体的なコードランキングでもトップ7に食い込み、多くのクローズドソースモデルと肩を並べています。エージェント能力：HLE（Human Lifespan Engineering）のフルセットテストで 50.2%、BrowseComp（ウェブブラウジング能力）テストで 74.9% を達成しており、これらのデータは指示の理解とツール操作においてトップクラスの水準にあることを示しています。視覚理解：MMMU ProやVideoMMMUなどの視覚ベンチマークテストでも、K2.5はオープンソース界をリードする実力を示しました。これら一連のデータは、Kimi K2.5が机上の空論ではなく、実世界のアプリケーションシーンにおいて、トップレベルのモデルと競い合う実力を備えていることを証明しています。 Kimi K2.5を使い始めるには？この新しいモデルを試したくてうずうずしているなら、いくつかのアプローチがあります。最も直接的な方法は Kimi.com または Kimiアプリを通じて利用することです。開発者の方は、APIを通じてK2.5の機能を統合することができます。

Jan 29, 2026 Read →

S …

tool

StepFun Step-Audio-R1.1登場：GPT-4oとGeminiを超える音声推論の新たな覇者

音声AIの競争の場において、誰もがOpenAIやGoogleの最新の動きを注視し、彼らが次の世界を震撼させる製品を出すことを期待しています。しかし最近、あるオープンウェイトモデルが静かにランキングのトップに上り詰め、多くのテック巨人を赤面させました。StepFunによって開発された Step-Audio-R1.1 という名のこのモデルは、音声推論能力において新記録を打ち立てただけでなく、リアルタイム対話の流暢さにおいても驚くべき実力を示しました。これが単なる普通の音声モデルだと思っているなら、それは大きな間違いです。Artificial Analysisの音声推論ベンチマーク（Speech Reasoning benchmark）において、96.4% という正解率で王座を獲得し、Grok、Gemini、さらにはGPT-Realtimeさえも大きく引き離しました。一体どうやってこれを成し遂げたのでしょうか？この技術の裏にある秘密を紐解いてみましょう。音声推論の新たな高み：データは嘘をつかないまずは最も直感的なデータのパフォーマンスを見てみましょう。Artificial AnalysisのBig Bench Audioデータセットのテスト結果によると、Step-Audio-R1.1は圧倒的な優位性を示しました。このリストでは、2位のGrok Voice Agentのスコアが92.3%、広く注目されているGPT-4o Realtime Previewは66%から68%の間にとどまりました。これは何を意味するのでしょうか？複雑な音声コマンドの処理、文脈の理解、論理的な推論において、Step-Audio-R1.1のパフォーマンスは、現在市場に出回っている高価な商用モデルよりも正確であることを示しています。これは単純な音声のテキスト変換後の再処理ではなく、真の「エンドツーエンド」（End-to-End）の音声ネイティブ推論です。モデルはテキストの書き起こしを仲介することなく、音の中にある論理を直接理解します。開発者や研究者にとって、これは心躍るニュースです。特に Hugging FaceでStep-Audio-R1.1の重みをダウンロードして、この技術を自ら検証できるとなれば、その衝撃はよりリアルなものになるでしょう。速度と知性のゲーム：従来のトレードオフを打破する長い間、AI分野には無視できない矛盾が存在しました。モデルを賢くしようとすれば、通常は反応速度を犠牲にしなければならず、速さを求めれば、推論の深さを犠牲にしなければならないというものです。しかし、リアルタイムの音声対話において、遅延はユーザー体験の天敵です。返事をするのに5秒も考え込むAIと会話したい人はいません。その気まずい沈黙は没入感を台無しにします。 Step-Audio-R1.1は、「思考ペース発話（Mind-Paced Speaking）」と呼ばれる技術を通じて、この難題を巧みに解決しました。これは、経験豊富な講演者が長時間立ち止まって考える必要がなく、話しながら考え、言葉を組み立てながら深い論理的推論を行えるようなものだと想像してください。これは独自のデュアルブレイン・アーキテクチャ（Dual-Brain Architecture）の恩恵を受けています：構想脳（Formulation Brain）：高レベルの論理的推論と内容の計画を担当します。表現脳（Articulation Brain）：音声生成の流暢さと自然さに焦点を当てます。この分業メカニズムにより、モデルは出力と同時に「思考の連鎖（Chain-of-Thought）」推論を行うことができます。その結果、速度と知性のどちらかを選択することなく、極めて低い遅延を維持しながら複雑なタスクを処理できるようになりました。この流暢さを体験したい方は、ModelScopeのDemoページで試してみることができます。音の中の論理を聞く：音響に基づく推論従来の音声モデルは、しばしば「逆スケーリング（inverted scaling）」の問題に遭遇していました。簡単に言えば、推論のためにテキストの書き起こしに過度に依存することをモデルに強いると、音声に含まれる感情、口調、微妙な間など、人間のコミュニケーションにおいてメッセージを伝える重要な部分を失ってしまう傾向があります。その結果、推論能力がかえって低下してしまいます。 Step-Audio-R1.1は Acoustic-Grounded Reasoning（音響に基づく推論）という戦略を採用しています。もはや音から変換されたテキストを単に「読む」のではなく、音自体の音響的特徴を直接「聴く」のです。反復的な自己蒸留（iterative self-distillation）技術を通じて、このモデルは音声データから直接論理的な手がかりを抽出する方法を学びました。これにより、本来負担になる可能性のあった「熟考」が利点へと変わりました。この技術的道筋は、将来の音声AIがネイティブであり、単なるテキストの運び屋ではなく、音の言語を理解しなければならないことを証明しています。オープンウェイトの意義：単なる技術展示ではない強力なパフォーマンスに加えて、Step-Audio-R1.1の最もエキサイティングな点はその「オープン性」にあります。ほとんどのトップモデルがクローズドソースを選択し、API呼び出しごとに料金を請求する現状において、StepFunはウェイトの公開（Open Weight）を選択しました。「音声推論と入力価格」の比較チャートを見ると、Step-Audio-R1.1は最も魅力的な象限に位置しています：高性能かつコスト制御可能（自己展開の場合）。低遅延の音声アシスタント、リアルタイム翻訳デバイス、または教育支援ツールを構築したい開発者にとって、これは間違いなく強力な後押しとなります。SOTAレベルの音声推論能力を手に入れるために、高価なAPI料金に縛られる必要はもうありません。よくある質問 (FAQ) この技術をより深く理解していただくために、いくつかの重要な質問をまとめました： 1. 「デュアルブレイン・アーキテクチャ」とは何ですか？また、対話の流暢さをどのように向上させますか？「デュアルブレイン・アーキテクチャ」は、Step-Audio-R1.1の核心的な設計理念です。これはモデルを2つの部分に分けます。論理と思考戦略を担当する「構想脳」と、これらのアイデアを流暢な音声に変換する「表現脳」です。これは人間が演説するとき、口では途切れることなく話しながら、頭の中では次の論点を構想しているようなものです。このメカニズムにより、モデルは反応速度を犠牲にすることなく複雑な論理演算を行い、真のリアルタイム対話を実現します。 2. Step-Audio-R1.1の96.4%という正解率はなぜ重要なのですか？この数字はArtificial AnalysisのBig Bench Audioテストによるもので、現在業界で認められている音声モデルの推論能力を測定する基準の一つです。96.4%というスコアは、このモデルが複雑な音声コマンドの理解や多段階タスクの処理において極めて高い精度を持っており、GPT-4o RealtimeやGeminiなどの商用クローズドソースモデルさえも凌駕していることを意味します。これは、オープンソースモデルが音声分野においてテック巨人と正面から対決し、さらには追い越すだけの実力をすでに備えていることを表しています。 3. Step-Audio-R1.1は従来の音声認識（Speech-to-Text）モデルとどう違いますか？従来の手法は通常、「音声からテキスト -> テキスト推論 -> テキストから音声」という3段階のプロセスであり、この過程で口調や感情などの音響情報が失われやすく、遅延も大きくなりがちです。Step-Audio-R1.1は「エンドツーエンド」（End-to-End）のネイティブ音声推論を採用しており、音響特徴上で直接演算を行います。これにより、豊富な音声の詳細が保持されるだけでなく、書き起こしプロセスのエラーも回避され、AIがより賢く、より敏感に反応するようになります。

Jan 16, 2026 Read →

L …

tool

Liquid AI LFM2.5登場：1Bパラメータモデルで端側AIの性能を再定義

Liquid AIがLFM2.5シリーズをリリースしました。1.2Bという軽量なパラメータで、デスクトップ級の性能を実現しています。本記事では、テキスト、ビジョン、日本語、およびネイティブオーディオ処理における突破口を詳細に解説し、このデバイス最適化されたオープンソースモデルが開発者エコシステムをどう変えるかを探ります。最近、AI界のトレンドが静かに変わり始めていることにお気づきでしょうか？超大型モデルが依然として注目を集める一方で、開発者コミュニティで真に話題となっているのは、自身のデバイスで動作する「小さくて美しい」モデルです。昨日、Liquid AIが衝撃的なニュースを発表しました。それがLFM2.5シリーズです。これは単なるバージョンアップではありません。10億（1B）パラメータ級のモデルが、緻密な調整によっていかに驚異的なポテンシャルを発揮できるかを示しています。 LFM2.5の核心的な目標は明確です。強力なAIをクラウドのデータセンターから連れ出し、あなたのノートPCやスマートフォン、さらには車の中に直接住まわせることです。Liquid AIは今回、事前学習データの量を10Tから28Tトークンへと引き上げただけでなく、強化学習を導入して事後学習プロセスを磨き上げました。その結果、Llama 3.2 1BやQwen 3 1.7Bといった強力なライバルを各ベンチマークで圧倒しました。それでは、今回のリリースの重要ポイントを詳しく紐解き、この「小さな巨人」ファミリーに隠された技術を見ていきましょう。 LFM2.5の核心アーキテクチャ：単なるデータの蓄積ではないここで明確にしておくべき重要な点があります。多くの人は、モデルの能力を向上させることは単に「より多くの本を読ませる」ことだと考えています。しかし、LFM2.5の成功はそれだけではありません。これは、LFM2の「デバイス最適化ハイブリッドアーキテクチャ（device-optimized hybrid architecture）」の上に築かれた進化版です。 Liquid AIは今回、より積極的な戦略をとり、事前学習の規模を約3倍（28Tトークン）に拡大しました。これは、モデルの「脳」の容量が限られている中で、より広範で高密度な知識を吸収したことを意味します。さらに重要なのは、チームが事後学習段階で強化学習を多用したことです。これは、モデルに厳しい家庭教師をつけ、論理的推論と指示遂行能力に対して高強度の特訓を行ったようなものです。開発者にとって、これは単に「話せる」モデルを手に入れるだけでなく、ツールの使い方を理解し、複雑な指示を実行できる信頼性の高いエージェント（Agent）を手に入れることを意味します。しかも、これらすべてがオープンウェイト（Open-weight）という前提で実現されています。多様なニーズに応える5つのモデルバリエーション LFM2.5は単一のモデルではなく、異なるシナリオに合わせてカスタマイズされたファミリーです。Liquid AIは今回、特定の用途に最適化された5つのモデルを一挙にリリースしました。 1. 汎用指示モデル (Instruct Model) シリーズのスター製品です。LFM2.5-1.2B-Instructは、ほとんどの開発者にとって最初の選択肢となるでしょう。教師あり微調整（SFT）と多段階の強化学習を経ており、そのままですぐに使用できます。一般的な会話、数学の問題、外部ツールの呼び出しなど、同クラスのモデルを超える安定性を示しています。反応が速く、インターネット接続なしでプライベートなデータを処理できるため、ローカルなCopilotや個人アシスタントの構築に最適です。 2. ベースモデル (Base Model) 自分でカスタマイズしたい技術ファンや企業のR&Dチーム向けに、LFM2.5-1.2B-Baseは最も純粋なキャンバスを提供します。これは指示微調整が行われる前の事前学習済みチェックポイントです。特定のドメイン（医療、法律など）専用のアシスタントを訓練したい場合や、新しい事後学習方法を試したい場合、このベースモデルが最適な出発点となります。 3. 日本語最適化モデル (Japanese Language Model) 言語の真髄は、単なる直訳ではなく、文化や文脈にあります。LFM2.5-1.2B-JPは、日本の環境に合わせて特別に構築されたチャットモデルです。オリジナル版も日本語をサポートしていますが、この専用バージョンは日本語の知識ベースと指示遂行において、このサイズのモデルとしては「最先端（SOTA）」のレベルに達しています。日本市場向けのアプリ開発において、文化的なニュアンスを極めて重視する開発者にとって、かけがえのないツールとなるでしょう。 4. ビジョン言語モデル (Vision-Language Model) 世界は視覚的であり、AIもテキストだけを理解すればいいわけではありません。LFM2.5-VL-1.6Bは、更新されたバックボーンネットワークに基づいて構築されています。最大の進歩は「複数画像の理解」と「多言語ビジョン処理」にあります。数枚の写真を渡し、日本語、英語、あるいはアラビア語で質問しても、正確に理解して回答することができます。ベンチマークでは、現実世界のシナリオを処理する能力が大幅に向上しており、環境を「見て理解する」必要があるエッジデバイスへの展開に非常に適しています。 5. ネイティブオーディオ言語モデル (Audio-Language Model) 正直なところ、今回のリリースで最もエキサイティングな部分です。従来の音声AIのプロセスは非常に煩雑でした。まず音声をテキストに変換（ASR）し、LLMに考えさせ、再びテキストを音声に変換（TTS）します。これでは遅延が大きく、語気や感情も失われがちです。 LFM2.5-Audio-1.5Bは、エンドツーエンドのネイティブ処理方式を採用しています。音声入力を直接受け取り、音声を直接出力します。このアーキテクチャにより、中間段階での情報の損失がなくなり、遅延が大幅に削減されました。公式データによると、その核心となるオーディオデトークナイザーは前世代より8倍高速です。これにより、車載システムやIoTデバイスにおいて、クラウド処理を待つことなく、本物の人間のような即時の音声対話が可能になります。展開とエコシステム：AIを真に実用化するモデルがいかに強力でも、展開が難しければ、それは研究室の玩具にすぎません。Liquid AIはこの点を熟知しており、互換性に非常に力を入れています。LFM2.5はリリース初日から主要な推論フレームワークをサポートしています。 llama.cpp： CPU推論のゴールドスタンダードです。GGUF形式を通じて、LFM2.5は一般的な様々なハードウェア上でスムーズに動作します。 MLX： Appleエコシステムの開発者にとって朗報です。LFM2.5はApple Siliconのユニファイドメモリ・アーキテクチャ向けに最適化されており、MacBookユーザーは極めて高速な推論を享受できます。 ONNX：クラウドからエッジデバイスまで、クロスプラットフォームなハードウェアサポートを提供します。パートナーによる最適化： Liquid AIはAMDおよびNexa AIと提携し、モデルがNPU（ニューラル・プロセッシング・ユニット）上で効率的に動作するようにしました。これは、ノートPCやスマートフォンで長時間AIを動作させ、バッテリー消費を抑えたいユーザーにとって極めて重要です。これらのモデルはHugging Faceで直接ダウンロードできるほか、Liquidの公式ブログで技術的な詳細を確認できます。性能実測：数字が語る実力ベンチマークテストにおいて、LFM2.5はそのサイズ以上の実力を示しました。LFM2.5-1.2B-Instructを例にとると、MMLU-Pro（知識）、IFEval（指示遂行）、GPQA（科学的Q&A）などのテストで、Llama 3.2 1B InstructやGemma 3 1B ITを大きく上回るスコアを記録しました。

Jan 6, 2026 Read →