Gemma 3 270M：小型ながら強力、超高効率AIのために生まれた精悍なモデル

Googleは、タスクのファインチューニングに特化したわずか2.7億パラメータの軽量AIモデル、Gemma 3 270Mを発表しました。強力な指示追従能力だけでなく、究極のエネルギー効率も備えており、高速で低コスト、かつプライバシーを保護するカスタムAIアプリケーションを構築するための理想的な出発点となります。

ここ数ヶ月、Gemmaオープンソースモデルファミリーは急速な発展を遂げてきました。クラウドやデスクトップアクセラレータに最先端のパフォーマンスをもたらすGemma 3やGemma 3 QATから、強力なリアルタイムマルチモーダルAIをエッジデバイスに直接もたらすモバイルファーストアーキテクチャのGemma 3nまで。その目標は常に、開発者に実用的なAIツールを提供することであり、コミュニティによって共同で創造された「Gemmaverse」エコシステムも繁栄を続けています。特筆すべきは、先週、このシリーズのモデルのダウンロード数が正式に2億回を突破したことです。

そして今、Gemma 3のツールボックスに新たなメンバーが加わりました。Gemma 3 270Mです。これは、2.7億のパラメータを持つ高度に特化した軽量モデルで、設計当初から特定のタスクのファインチューニング（fine-tuning）のために作られ、強力な指示追従能力とテキスト構造化能力を内蔵しています。

大砲で小鳥を撃つな：AI開発における「適材適所」の哲学

Gemma 3チームは、このモデルの目標がファインチューニングをサポートすることであると明確に指摘しています。このような微小なモデルは、汎用的なLLMタスクには対応できませんが、適切なファインチューニングデータがあれば、様々なタスクを処理する専門家に特化することができます。

エンジニアリングの世界では、成功の定義はしばしば、単なる生の強力さではなく、効率性です。この理屈は、AIアプリケーションの開発にも同様に当てはまります。

Gemma 3 270Mは、まさにこの「適材適所」の哲学を最もよく体現しています。これは高品質のベースモデルであり、箱から出してすぐに指示をよく理解し、従うことができます。しかし、その真のポテンシャルは、ファインチューニングによって解放されます。

一度特化訓練を受けると、テキスト分類やデータ抽出などのタスクを、驚くべき精度、速度、コスト効率で実行することができます。小型で強力なモデルから始めることで、開発者はよりスリムで高速、かつ運用コストが大幅に削減された生産システムを構築することができます。

小型で精悍：Gemma 3 270Mのコア能力

これほど小さなサイズのモデルでありながら、侮れない能力を備えています。

Gemma 3 270Mは、強力な指示追従能力を極めて小さなサイズのモデルにもたらします。IFEvalベンチマーク（検証可能な指示に従うモデルの能力を専門的に評価するテスト）の結果によると、同規模のモデルの新たなパフォーマンス基準を打ち立て、精密なAI機能がデバイス側や研究アプリケーションでより普及するようになりました。

そのコア能力には以下が含まれます：

精巧で強力なアーキテクチャ： 新モデルは合計2.7億のパラメータを持ち、そのうち1.7億は巨大な語彙（vocabulary）から、残りの1億はTransformerブロックに使用されます。25万6千トークンにも及ぶこの語彙のおかげで、モデルは特定または珍しい単語を効果的に処理でき、特定の分野や言語でのファインチューニングに最適な基盤となります。
究極のエネルギー効率： 低消費電力はGemma 3 270Mの大きな利点の一つです。Pixel 9 Pro SoCでの内部テストによると、INT4量子化後のモデルは25回の対話を行った後、わずか0.75%の電力しか消費せず、Gemmaファミリーの中で最も省エネなメンバーとなりました。これは、長時間の運用が必要なモバイルアプリケーションにとって大きな福音です。
優れた指示追従能力： 今回のリリースには、事前学習済み（pre-trained）と指示チューニング済み（instruction-tuned）の2つのバージョンが含まれています。このモデルは複雑なチャット対話シナリオ向けに設計されていませんが、箱から出してすぐに、様々な一般的な指示に正確に従うことができます。
生産環境向けの量子化技術： 公式には、量子化対応トレーニング（Quantization-Aware Trained, QAT）の重みファイルが提供されており、モデルはINT4の精度で実行でき、同時にパフォーマンスの低下を最小限に抑えることができます。これは、リソースが限られたデバイスへの展開にとって極めて重要です。

理論が現実に：専門化の驚くべき力

この「専門化」というアプローチは、現実世界ですでに信じられないほどの成果を上げています。

その絶好の例が、Adaptive MLとSK Telecomの協力です。彼らは、繊細で多言語のコンテンツモデレーションという課題に直面していました。Adaptive MLは、巨大で汎用的なモデルを使用するのではなく、Gemma 3 4Bモデルをファインチューニングすることを選択しました。結果は驚くべきものでした。この特化されたGemmaモデルは、特定のタスクにおいて目標を達成しただけでなく、多くのより大規模なプロプライエタリモデルをも上回りました。

Gemma 3 270Mの設計思想は、まさに開発者がこのアプローチを最大限に活用し、明確に定義されたタスクに対してより高い効率をもたらすことを可能にすることです。これは、開発者が小型で特化されたモデルからなる「専門家チーム」を構築するための完璧な出発点であり、各モデルはそれぞれのタスクに精通しています。

しかし、この専門化の力は企業レベルのタスクに限定されるものではなく、強力なクリエイティブアプリケーションを刺激することもできます。例えば、Gemma 3 270MとTransformers.jsをベースに構築されたおやすみ前の物語ジェネレーターのウェブアプリケーションは、そのモデルのサイズとパフォーマンスから、オフラインでウェブベースのクリエイティブタスクに非常に適しています。

Gemma 3 270Mの適用シナリオ

Gemma 3 270Mは、Gemma 3シリーズの先進的なアーキテクチャと安定した事前学習基盤を継承しており、カスタムアプリケーションに堅実な出発点を提供します。

以下のような状況で、理想的な選択肢となります：

高トラフィックで明確に定義されたタスクがある場合： 感情分析、エンティティ抽出、クエリルーティング、非構造化テキストから構造化テキストへの変換、クリエイティブライティング、コンプライアンスチェックなどの機能に非常に適しています。
ミリ秒とセント単位でコストを気にする必要がある場合： 生産環境での推論コストを大幅に削減、あるいは排除し、ユーザーにより速い応答を提供します。ファインチューニングされた270Mモデルは、軽量で安価なインフラストラクチャ、あるいはデバイス上で直接実行できます。
迅速なイテレーションとデプロイが必要な場合： Gemma 3 270Mの小さなサイズにより、開発者は迅速なファインチューニング実験を行うことができ、数日ではなく数時間で、特定のユースケースに最適な構成を見つけるのに役立ちます。
ユーザーのプライバシーを確保する必要がある場合： モデルは完全にデバイス上で実行できるため、開発者は機密情報を処理できるアプリケーションを構築でき、データをクラウドに送信する必要がありません。
特化タスクモデルの艦隊を構築したい場合： 開発者は、予算を超えずに、複数のカスタムモデルを構築・展開でき、各モデルは異なるタスクのために専門的に訓練されています。

今すぐファインチューニングの旅を始めよう

開発者がGemma 3 270Mをカスタムソリューションに簡単に変換できるように、公式には豊富なチュートリアルとツールが提供されています。他のGemma 3モデルと同じアーキテクチャに基づいているため、迅速に始めることができます。

モデルのダウンロード： Hugging FaceなどのプラットフォームからGemma 3 270Mモデルを入手できます。事前学習済みと指示チューニング済みの2つのバージョンが含まれています。
モデルの試用： Vertex AIで試用するか、llama.cpp、Gemma.cpp、LiteRT、Keras、MLXなどの人気の推論ツールを使用して体験できます。
ファインチューニングの開始： Hugging Face、UnSloth、JAXなどの主要なツールを使用できます。
デプロイ方案： ファインチューニングが完了すると、特化モデルはローカル環境からGoogle Cloud Runまで、どこにでもデプロイできます。

「Gemmaverse」の理念は、イノベーションは大小を問わないということです。Gemma 3 270Mを通じて、開発者はよりスマートで、より速く、より効率的なAIソリューションを構築する能力を得るでしょう。公式も、コミュニティがこのモデルを活用して、さらに驚くべき特化アプリケーションを創造することを期待していると述べています。

Featured Partners

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

Recommended for You

K …

tool

Kimi K2.5モデル解説：オープンソース界の新たな指標、ビジュアルコーディングとマルチエージェント協調の実力

Moonshot AIが最新のオープンソースモデルKimi K2.5を発表。ネイティブなマルチモーダル能力と強力な「群知能エージェント（Agent Swarm）」技術を搭載しています。本記事では、ビジュアルコード生成、マルチエージェント協調、そして複雑なオフィス業務におけるその画期的なパフォーマンスを詳細に分析し、単一エージェントを超える効率をいかにより低いコストで実現しているかを探ります。技術界隈で最近、心躍るニュースがありました。Moonshot AIが正式に Kimi K2.5 をリリースしたのです。これは単なるモデルのアップデートではありません。現在利用可能な最も強力なオープンソースモデルの一つです。約15T（兆）の視覚とテキストの混合トークンによる継続的な事前学習を経て、K2.5はコーディング、視覚理解、そしてエージェント協調（Agent Swarm）において、印象的な実力を示しています。開発者やプロフェッショナルにとって、これは何を意味するのでしょうか？簡単に言えば、渡された動画を理解し、美しいウェブページを書き上げ、さらには100人のAIアシスタントを指揮して同時に調べ物をさせることができるのです。それでは、Kimi K2.5の核心となるいくつかのハイライトを見ていきましょう。視覚とコードの完璧な融合：美的センスを持つエンジニアこれまでAIにウェブページを書かせると、構造は正しいものの見た目が地味なコードが出力されるのが常でした。しかし、Kimi K2.5はこの制限を打ち破りました。ネイティブなマルチモーダル能力を内蔵しているため、「ビジュアルコーディング（Coding with Vision）」を余裕を持ってこなします。ウェブサイトの操作動画やデザインのラフスケッチを渡してみると、K2.5はその中の視覚的なロジック、レイアウトのインタラクション、さらにはアニメーション効果まで理解します。単にテキストの指示を翻訳するだけでなく、「美しさ」と「ユーザーエクスペリエンス」を理解する経験豊富なフロントエンドエンジニアのように振る舞います。例えば、マティスの絵画のようなスタイルのウェブページが欲しいとします。K2.5はコードを生成するだけでなく、ビジュアルデバッキング（Visual Debugging）を通じて自己修正を行い、最終的な仕上がりが芸術的な美しさに合致するようにします。動画や画像から、リッチなスクロール効果を含むインタラクティブなインターフェースへ直接変換できるこの能力は、クリエイティブを完成品に変える敷居を大幅に下げます。群知能エージェントシステム：一騎当千の並列処理能力これはおそらくK2.5の最もSF的な機能でしょう。複雑な難題に直面したとき、単独での戦いは効率が悪いことがよくあります。Kimi K2.5は「群知能エージェント（Agent Swarm）」の概念を導入しました。これは単純なマルチタスクではなく、自ら指揮を執る協調システムです。 100の異なるニッチ市場を調査する必要があると想像してください。従来のAIエージェントなら、一つずつ順に検索していく必要があり、時間がかかるうえにエラーも起きやすいものでした。しかしK2.5のアーキテクチャでは、オーケストレーター（Orchestrator）がタスクを自動的に分解し、最大 100のサブエージェント（Sub-agents）を指揮して同時に作業を開始させます。これらのサブエージェントは訓練されたチームのように、最大 1,500回のツール呼び出しを並列実行します。これにより何が変わるのでしょうか？速度向上：単一エージェントモードと比較して、実行時間が 4.5倍短縮されます。自動編成：ユーザーがワークフローを事前に定義する必要はありません。K2.5がタスクのニーズに応じて、動的にこれらのサブエージェントを生成・管理します。この並列処理能力により、Kimi K2.5は広範囲検索（Wide Search）のようなタスクを処理する際に、驚異的な効率を発揮します。オフィス生産性の実質的な飛躍：実世界の重労働を解決実際のオフィスシーンでは、単純な質疑応答ではなく、高密度で長文のデータ処理に直面することがよくあります。Kimi K2.5はこの点に特化して最適化されています。 1万文字の論文であれ、100ページのドキュメントであれ、K2.5はエンドツーエンドの処理が可能です。単にこれらのデータを「読む」だけでなく、以下のような複雑な操作を実行できます： Word文書に正確な注釈を追加する。 Excelでピボットテーブルや財務モデルを作成する。 PDF内に複雑なLaTeX数式を記述する。内部テスト（AI Office Benchmark）によると、K2.5はこれらの生産性タスクの処理において、前世代のモデルと比較して著しい進歩を遂げており、本来数時間から数日かかる手作業を数分に短縮することができます。大量の文書を扱う専門家にとって、これは間違いなく朗報です。オープンソース界の性能指標：データは語る多くの機能を語りましたが、具体的な性能はどうなのでしょうか？複数の権威あるベンチマークテストにおいて、Kimi K2.5は素晴らしい成績を収めています。コーディング能力：SWE-bench Verifiedテストで 76.8% を達成し、オープンソースモデルの首位を確固たるものにしました。LMSYSの全体的なコードランキングでもトップ7に食い込み、多くのクローズドソースモデルと肩を並べています。エージェント能力：HLE（Human Lifespan Engineering）のフルセットテストで 50.2%、BrowseComp（ウェブブラウジング能力）テストで 74.9% を達成しており、これらのデータは指示の理解とツール操作においてトップクラスの水準にあることを示しています。視覚理解：MMMU ProやVideoMMMUなどの視覚ベンチマークテストでも、K2.5はオープンソース界をリードする実力を示しました。これら一連のデータは、Kimi K2.5が机上の空論ではなく、実世界のアプリケーションシーンにおいて、トップレベルのモデルと競い合う実力を備えていることを証明しています。 Kimi K2.5を使い始めるには？この新しいモデルを試したくてうずうずしているなら、いくつかのアプローチがあります。最も直接的な方法は Kimi.com または Kimiアプリを通じて利用することです。開発者の方は、APIを通じてK2.5の機能を統合することができます。

Jan 29, 2026 Read →

S …

tool

StepFun Step-Audio-R1.1登場：GPT-4oとGeminiを超える音声推論の新たな覇者

音声AIの競争の場において、誰もがOpenAIやGoogleの最新の動きを注視し、彼らが次の世界を震撼させる製品を出すことを期待しています。しかし最近、あるオープンウェイトモデルが静かにランキングのトップに上り詰め、多くのテック巨人を赤面させました。StepFunによって開発された Step-Audio-R1.1 という名のこのモデルは、音声推論能力において新記録を打ち立てただけでなく、リアルタイム対話の流暢さにおいても驚くべき実力を示しました。これが単なる普通の音声モデルだと思っているなら、それは大きな間違いです。Artificial Analysisの音声推論ベンチマーク（Speech Reasoning benchmark）において、96.4% という正解率で王座を獲得し、Grok、Gemini、さらにはGPT-Realtimeさえも大きく引き離しました。一体どうやってこれを成し遂げたのでしょうか？この技術の裏にある秘密を紐解いてみましょう。音声推論の新たな高み：データは嘘をつかないまずは最も直感的なデータのパフォーマンスを見てみましょう。Artificial AnalysisのBig Bench Audioデータセットのテスト結果によると、Step-Audio-R1.1は圧倒的な優位性を示しました。このリストでは、2位のGrok Voice Agentのスコアが92.3%、広く注目されているGPT-4o Realtime Previewは66%から68%の間にとどまりました。これは何を意味するのでしょうか？複雑な音声コマンドの処理、文脈の理解、論理的な推論において、Step-Audio-R1.1のパフォーマンスは、現在市場に出回っている高価な商用モデルよりも正確であることを示しています。これは単純な音声のテキスト変換後の再処理ではなく、真の「エンドツーエンド」（End-to-End）の音声ネイティブ推論です。モデルはテキストの書き起こしを仲介することなく、音の中にある論理を直接理解します。開発者や研究者にとって、これは心躍るニュースです。特に Hugging FaceでStep-Audio-R1.1の重みをダウンロードして、この技術を自ら検証できるとなれば、その衝撃はよりリアルなものになるでしょう。速度と知性のゲーム：従来のトレードオフを打破する長い間、AI分野には無視できない矛盾が存在しました。モデルを賢くしようとすれば、通常は反応速度を犠牲にしなければならず、速さを求めれば、推論の深さを犠牲にしなければならないというものです。しかし、リアルタイムの音声対話において、遅延はユーザー体験の天敵です。返事をするのに5秒も考え込むAIと会話したい人はいません。その気まずい沈黙は没入感を台無しにします。 Step-Audio-R1.1は、「思考ペース発話（Mind-Paced Speaking）」と呼ばれる技術を通じて、この難題を巧みに解決しました。これは、経験豊富な講演者が長時間立ち止まって考える必要がなく、話しながら考え、言葉を組み立てながら深い論理的推論を行えるようなものだと想像してください。これは独自のデュアルブレイン・アーキテクチャ（Dual-Brain Architecture）の恩恵を受けています：構想脳（Formulation Brain）：高レベルの論理的推論と内容の計画を担当します。表現脳（Articulation Brain）：音声生成の流暢さと自然さに焦点を当てます。この分業メカニズムにより、モデルは出力と同時に「思考の連鎖（Chain-of-Thought）」推論を行うことができます。その結果、速度と知性のどちらかを選択することなく、極めて低い遅延を維持しながら複雑なタスクを処理できるようになりました。この流暢さを体験したい方は、ModelScopeのDemoページで試してみることができます。音の中の論理を聞く：音響に基づく推論従来の音声モデルは、しばしば「逆スケーリング（inverted scaling）」の問題に遭遇していました。簡単に言えば、推論のためにテキストの書き起こしに過度に依存することをモデルに強いると、音声に含まれる感情、口調、微妙な間など、人間のコミュニケーションにおいてメッセージを伝える重要な部分を失ってしまう傾向があります。その結果、推論能力がかえって低下してしまいます。 Step-Audio-R1.1は Acoustic-Grounded Reasoning（音響に基づく推論）という戦略を採用しています。もはや音から変換されたテキストを単に「読む」のではなく、音自体の音響的特徴を直接「聴く」のです。反復的な自己蒸留（iterative self-distillation）技術を通じて、このモデルは音声データから直接論理的な手がかりを抽出する方法を学びました。これにより、本来負担になる可能性のあった「熟考」が利点へと変わりました。この技術的道筋は、将来の音声AIがネイティブであり、単なるテキストの運び屋ではなく、音の言語を理解しなければならないことを証明しています。オープンウェイトの意義：単なる技術展示ではない強力なパフォーマンスに加えて、Step-Audio-R1.1の最もエキサイティングな点はその「オープン性」にあります。ほとんどのトップモデルがクローズドソースを選択し、API呼び出しごとに料金を請求する現状において、StepFunはウェイトの公開（Open Weight）を選択しました。「音声推論と入力価格」の比較チャートを見ると、Step-Audio-R1.1は最も魅力的な象限に位置しています：高性能かつコスト制御可能（自己展開の場合）。低遅延の音声アシスタント、リアルタイム翻訳デバイス、または教育支援ツールを構築したい開発者にとって、これは間違いなく強力な後押しとなります。SOTAレベルの音声推論能力を手に入れるために、高価なAPI料金に縛られる必要はもうありません。よくある質問 (FAQ) この技術をより深く理解していただくために、いくつかの重要な質問をまとめました： 1. 「デュアルブレイン・アーキテクチャ」とは何ですか？また、対話の流暢さをどのように向上させますか？「デュアルブレイン・アーキテクチャ」は、Step-Audio-R1.1の核心的な設計理念です。これはモデルを2つの部分に分けます。論理と思考戦略を担当する「構想脳」と、これらのアイデアを流暢な音声に変換する「表現脳」です。これは人間が演説するとき、口では途切れることなく話しながら、頭の中では次の論点を構想しているようなものです。このメカニズムにより、モデルは反応速度を犠牲にすることなく複雑な論理演算を行い、真のリアルタイム対話を実現します。 2. Step-Audio-R1.1の96.4%という正解率はなぜ重要なのですか？この数字はArtificial AnalysisのBig Bench Audioテストによるもので、現在業界で認められている音声モデルの推論能力を測定する基準の一つです。96.4%というスコアは、このモデルが複雑な音声コマンドの理解や多段階タスクの処理において極めて高い精度を持っており、GPT-4o RealtimeやGeminiなどの商用クローズドソースモデルさえも凌駕していることを意味します。これは、オープンソースモデルが音声分野においてテック巨人と正面から対決し、さらには追い越すだけの実力をすでに備えていることを表しています。 3. Step-Audio-R1.1は従来の音声認識（Speech-to-Text）モデルとどう違いますか？従来の手法は通常、「音声からテキスト -> テキスト推論 -> テキストから音声」という3段階のプロセスであり、この過程で口調や感情などの音響情報が失われやすく、遅延も大きくなりがちです。Step-Audio-R1.1は「エンドツーエンド」（End-to-End）のネイティブ音声推論を採用しており、音響特徴上で直接演算を行います。これにより、豊富な音声の詳細が保持されるだけでなく、書き起こしプロセスのエラーも回避され、AIがより賢く、より敏感に反応するようになります。

Jan 16, 2026 Read →

L …

tool

Liquid AI LFM2.5登場：1Bパラメータモデルで端側AIの性能を再定義

Liquid AIがLFM2.5シリーズをリリースしました。1.2Bという軽量なパラメータで、デスクトップ級の性能を実現しています。本記事では、テキスト、ビジョン、日本語、およびネイティブオーディオ処理における突破口を詳細に解説し、このデバイス最適化されたオープンソースモデルが開発者エコシステムをどう変えるかを探ります。最近、AI界のトレンドが静かに変わり始めていることにお気づきでしょうか？超大型モデルが依然として注目を集める一方で、開発者コミュニティで真に話題となっているのは、自身のデバイスで動作する「小さくて美しい」モデルです。昨日、Liquid AIが衝撃的なニュースを発表しました。それがLFM2.5シリーズです。これは単なるバージョンアップではありません。10億（1B）パラメータ級のモデルが、緻密な調整によっていかに驚異的なポテンシャルを発揮できるかを示しています。 LFM2.5の核心的な目標は明確です。強力なAIをクラウドのデータセンターから連れ出し、あなたのノートPCやスマートフォン、さらには車の中に直接住まわせることです。Liquid AIは今回、事前学習データの量を10Tから28Tトークンへと引き上げただけでなく、強化学習を導入して事後学習プロセスを磨き上げました。その結果、Llama 3.2 1BやQwen 3 1.7Bといった強力なライバルを各ベンチマークで圧倒しました。それでは、今回のリリースの重要ポイントを詳しく紐解き、この「小さな巨人」ファミリーに隠された技術を見ていきましょう。 LFM2.5の核心アーキテクチャ：単なるデータの蓄積ではないここで明確にしておくべき重要な点があります。多くの人は、モデルの能力を向上させることは単に「より多くの本を読ませる」ことだと考えています。しかし、LFM2.5の成功はそれだけではありません。これは、LFM2の「デバイス最適化ハイブリッドアーキテクチャ（device-optimized hybrid architecture）」の上に築かれた進化版です。 Liquid AIは今回、より積極的な戦略をとり、事前学習の規模を約3倍（28Tトークン）に拡大しました。これは、モデルの「脳」の容量が限られている中で、より広範で高密度な知識を吸収したことを意味します。さらに重要なのは、チームが事後学習段階で強化学習を多用したことです。これは、モデルに厳しい家庭教師をつけ、論理的推論と指示遂行能力に対して高強度の特訓を行ったようなものです。開発者にとって、これは単に「話せる」モデルを手に入れるだけでなく、ツールの使い方を理解し、複雑な指示を実行できる信頼性の高いエージェント（Agent）を手に入れることを意味します。しかも、これらすべてがオープンウェイト（Open-weight）という前提で実現されています。多様なニーズに応える5つのモデルバリエーション LFM2.5は単一のモデルではなく、異なるシナリオに合わせてカスタマイズされたファミリーです。Liquid AIは今回、特定の用途に最適化された5つのモデルを一挙にリリースしました。 1. 汎用指示モデル (Instruct Model) シリーズのスター製品です。LFM2.5-1.2B-Instructは、ほとんどの開発者にとって最初の選択肢となるでしょう。教師あり微調整（SFT）と多段階の強化学習を経ており、そのままですぐに使用できます。一般的な会話、数学の問題、外部ツールの呼び出しなど、同クラスのモデルを超える安定性を示しています。反応が速く、インターネット接続なしでプライベートなデータを処理できるため、ローカルなCopilotや個人アシスタントの構築に最適です。 2. ベースモデル (Base Model) 自分でカスタマイズしたい技術ファンや企業のR&Dチーム向けに、LFM2.5-1.2B-Baseは最も純粋なキャンバスを提供します。これは指示微調整が行われる前の事前学習済みチェックポイントです。特定のドメイン（医療、法律など）専用のアシスタントを訓練したい場合や、新しい事後学習方法を試したい場合、このベースモデルが最適な出発点となります。 3. 日本語最適化モデル (Japanese Language Model) 言語の真髄は、単なる直訳ではなく、文化や文脈にあります。LFM2.5-1.2B-JPは、日本の環境に合わせて特別に構築されたチャットモデルです。オリジナル版も日本語をサポートしていますが、この専用バージョンは日本語の知識ベースと指示遂行において、このサイズのモデルとしては「最先端（SOTA）」のレベルに達しています。日本市場向けのアプリ開発において、文化的なニュアンスを極めて重視する開発者にとって、かけがえのないツールとなるでしょう。 4. ビジョン言語モデル (Vision-Language Model) 世界は視覚的であり、AIもテキストだけを理解すればいいわけではありません。LFM2.5-VL-1.6Bは、更新されたバックボーンネットワークに基づいて構築されています。最大の進歩は「複数画像の理解」と「多言語ビジョン処理」にあります。数枚の写真を渡し、日本語、英語、あるいはアラビア語で質問しても、正確に理解して回答することができます。ベンチマークでは、現実世界のシナリオを処理する能力が大幅に向上しており、環境を「見て理解する」必要があるエッジデバイスへの展開に非常に適しています。 5. ネイティブオーディオ言語モデル (Audio-Language Model) 正直なところ、今回のリリースで最もエキサイティングな部分です。従来の音声AIのプロセスは非常に煩雑でした。まず音声をテキストに変換（ASR）し、LLMに考えさせ、再びテキストを音声に変換（TTS）します。これでは遅延が大きく、語気や感情も失われがちです。 LFM2.5-Audio-1.5Bは、エンドツーエンドのネイティブ処理方式を採用しています。音声入力を直接受け取り、音声を直接出力します。このアーキテクチャにより、中間段階での情報の損失がなくなり、遅延が大幅に削減されました。公式データによると、その核心となるオーディオデトークナイザーは前世代より8倍高速です。これにより、車載システムやIoTデバイスにおいて、クラウド処理を待つことなく、本物の人間のような即時の音声対話が可能になります。展開とエコシステム：AIを真に実用化するモデルがいかに強力でも、展開が難しければ、それは研究室の玩具にすぎません。Liquid AIはこの点を熟知しており、互換性に非常に力を入れています。LFM2.5はリリース初日から主要な推論フレームワークをサポートしています。 llama.cpp： CPU推論のゴールドスタンダードです。GGUF形式を通じて、LFM2.5は一般的な様々なハードウェア上でスムーズに動作します。 MLX： Appleエコシステムの開発者にとって朗報です。LFM2.5はApple Siliconのユニファイドメモリ・アーキテクチャ向けに最適化されており、MacBookユーザーは極めて高速な推論を享受できます。 ONNX：クラウドからエッジデバイスまで、クロスプラットフォームなハードウェアサポートを提供します。パートナーによる最適化： Liquid AIはAMDおよびNexa AIと提携し、モデルがNPU（ニューラル・プロセッシング・ユニット）上で効率的に動作するようにしました。これは、ノートPCやスマートフォンで長時間AIを動作させ、バッテリー消費を抑えたいユーザーにとって極めて重要です。これらのモデルはHugging Faceで直接ダウンロードできるほか、Liquidの公式ブログで技術的な詳細を確認できます。性能実測：数字が語る実力ベンチマークテストにおいて、LFM2.5はそのサイズ以上の実力を示しました。LFM2.5-1.2B-Instructを例にとると、MMLU-Pro（知識）、IFEval（指示遂行）、GPQA（科学的Q&A）などのテストで、Llama 3.2 1B InstructやGemma 3 1B ITを大きく上回るスコアを記録しました。

Jan 6, 2026 Read →