Jan-v1 が突如出現：実測精度で Perplexity Pro を超え、地上最強の 4B ローカル AI モデルか？

AI 分野に再び波乱！新たにリリースされた Jan-v1 モデルが、SimpleQA の質疑応答評価で、驚異的な 91.1% の精度で有名な Perplexity Pro をわずかに上回りました。さらに重要なことに、この強力なパフォーマンスはすべて、インターネットに接続することなく、個人のコンピュータ上でローカルに実行できます。本記事では、Jan-v1 の技術的な詳細、評価パフォーマンス、そして完全なインストールと実行ガイドを詳しく解説します。

ローカル AI の新王者か？Jan-v1 登場

人工知能技術が急速に発展する今日、私たちは強力な AI モデルをクラウドサーバーと同一視することに慣れています。しかし、もし、最高の質疑応答能力と検索能力を、データプライバシーとオフライン操作の自由を保ちながら、あなたのパーソナルコンピュータに直接もたらすことができるモデルがあると言われたら、興奮しませんか？

これこそが、Jan-v1 が実現しようとしている目標です。最近、Jan-v1 という名前の 4B パラメータモデルが大きな注目を集めています。これは、Web 検索と推論タスクのために微調整されたツールであるだけでなく、公開されているベンチマークテストで、業界のベンチマークに挑戦するのに十分な驚異的な実力を示しています。

SimpleQA 評価で真価が問われる：Jan-v1 はどのようにしてランキングを制したのか？

質疑応答における包括的な精度

モデル	精度
⭐ Jan-V1	91.1%
Perplexity Pro	90.6%
Qwen3-4B-2507	86.5%
gpt-oss-208	86.3%
Jan-nano-128k	83.2%
Jan-nano	80.7%
Jan-nano (YaRN)	79.7%
Lucy (YaRN)	78.3%
DeepSeek-V3	78.2%
ChatGPT-4.5	62.5%
Baseline	59.2%
Gemini-2.5-Pro	52.9%
Claude-3.7-Sonnet	50.0%
o3	49.4%
Grok-3	44.6%
o1	42.6%

注: Jan-V1、Jan-nano の亜種、Lucy モデルは Serper MCP でベンチマークされました。

論より証拠、データが物語っています。AI の質疑応答の総合的な精度を測定する SimpleQA ベンチマークテストで、Jan-v1 は印象的な成績を収めました。

上の評価グラフからはっきりとわかるように、Jan-v1 は 91.1% の精度でトップに立っています。この結果は驚くべきものであるだけでなく、広く評価されているオンライン AI 検索エンジン Perplexity Pro (90.6%) をわずかに上回っています。

これは何を意味するのでしょうか？これは、ユーザーが完全にオフラインのローカル環境で、トップクラスのオンラインサービスに匹敵する、あるいはそれを超える質疑応答精度を得られるようになったことを意味します。これは、データプライバシーを重視する専門家や、インターネット接続のない環境で作業する必要がある専門家にとって、間違いなく大きな恩恵です。

さらに注目すべきは、Jan-v1 がこの評価で、gpt-oss-20B (86.3%)、ChatGPT-4.5 (62.5%)、そして Gemini と Claude シリーズの複数のバージョンなど、他の有名なモデルを大幅に上回っていることです。これは、質疑応答分野におけるその卓越したパフォーマンスを十分に証明しています。

強力なコアの秘密を解き明かす：Qwen3-4B-Thinking による強化

Jan-v1 の強力さは偶然ではありません。その中核は、Alibaba の Tongyi Qianwen チームが発表した最新の Qwen3-4B-Thinking モデルに基づいています。これは 40 億のパラメータを持つモデルで、軽量化と高性能の間で絶妙なバランスをとっています。

Jan チームはこれを基盤として、推論 (reasoning) とツール使用 (tool use) のために詳細な微調整を行いました。これは、賢い学生に最高のツールを与えて、複雑な問題をより効果的に解決できるようにするようなものです。

さらに、Jan-v1 は最大 256k のコンテキスト長をサポートしています。簡単な例えで言えば、これはモデルが分厚い本の内容を一度に記憶して理解できることに相当し、長いレポートの処理、複雑なコードの分析、または詳細な会話を行う際に大きな利点をもたらします。

今すぐ体験！お使いのコンピュータで Jan-v1 を実行する方法

Jan-v1 の威力を直接体験してみませんか？そのプロセスはあなたが思っているよりも簡単です。開発チームは非常に使いやすい統合環境を提供しており、ユーザーは簡単に始めることができます。

主な実行方法：Jan デスクトップアプリケーション経由

Jan アプリケーションのダウンロード： Jan 公式サイトにアクセスして、お使いのオペレーティングシステム用のアプリケーションをダウンロードしてインストールします。
Web 検索機能の有効化（重要なステップ）： 最高の質疑応答結果を得るには、モデルがリアルタイムの情報を取得できるように検索機能を有効にする必要があります。
- 設定 (Settings) → 実験的機能 (Experimental Features) に移動し、オン (On) にします。
- 次に 設定 (Settings) → MCP サーバー (MCP Servers) に移動し、検索に関連する MCP (例: Serper) を有効にします。

上級ユーザー向け：

他のツールチェーンを使い慣れている場合でも、Jan-v1 は llama.cpp と vLLM 環境での実行をサポートしています。Hugging Face からモデルファイルをダウンロードできます。

ベースモデル： janhq/Jan-v1-4B
GGUF 形式（ほとんどのローカルユーザーに推奨）： janhq/Jan-v1-4B-GGUF

プロのヒント：モデルパラメータ設定の最適化

Jan-v1 のポテンシャルを最大限に引き出すために、公式では以下のパラメータ設定を使用することを推奨しています。これらの設定オプションは、Jan アプリケーションの会話ウィンドウの右側で確認できます。

Temperature (温度): 0.6
- この値は出力の創造性を制御します。0.6 は、精度を維持しながら、より文脈に関連した回答を提供し、回答が硬直的すぎたり、突飛すぎたりするのを防ぎます。
Top P: 0.95
- 温度と同様に、このパラメータは確率の低い単語を除外して、回答をより焦点の合ったものにするために使用されます。
Top K: 20
- 各単語を生成する際に、選択範囲を確率が最も高い 20 の単語に絞り込むことで、回答の一貫性を向上させるのに役立ちます。
Max Tokens (最大トークン数): 2048
- モデルからの単一の回答の最大長を設定します。2048 は、ほとんどの質疑応答シナリオで十分すぎるほどです。

結論：ローカル AI の新時代

Jan-v1 の登場は、単に新しいモデルがリリースされたというだけではありません。それは重要なトレンドを象徴しています。つまり、最高の AI パフォーマンスは、クラウドからエンドポイントへ、集中型からパーソナライズされたものへと徐々に移行しているということです。

これは、4B のような比較的軽量なパラメータレベルであっても、優れたベースモデルと正確な微調整によって、大規模なオンラインサービスを超えるパフォーマンスを実現できることを証明しています。これは、AI の普及、プライバシー保護、およびカスタマイズされたアプリケーションに新たな可能性を開きます。何を待っているのですか？今すぐ Jan をダウンロードして、ローカル AI の新しい波を体感してください！

Featured Partners

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

Recommended for You

K …

tool

Kimi K2.5モデル解説：オープンソース界の新たな指標、ビジュアルコーディングとマルチエージェント協調の実力

Moonshot AIが最新のオープンソースモデルKimi K2.5を発表。ネイティブなマルチモーダル能力と強力な「群知能エージェント（Agent Swarm）」技術を搭載しています。本記事では、ビジュアルコード生成、マルチエージェント協調、そして複雑なオフィス業務におけるその画期的なパフォーマンスを詳細に分析し、単一エージェントを超える効率をいかにより低いコストで実現しているかを探ります。技術界隈で最近、心躍るニュースがありました。Moonshot AIが正式に Kimi K2.5 をリリースしたのです。これは単なるモデルのアップデートではありません。現在利用可能な最も強力なオープンソースモデルの一つです。約15T（兆）の視覚とテキストの混合トークンによる継続的な事前学習を経て、K2.5はコーディング、視覚理解、そしてエージェント協調（Agent Swarm）において、印象的な実力を示しています。開発者やプロフェッショナルにとって、これは何を意味するのでしょうか？簡単に言えば、渡された動画を理解し、美しいウェブページを書き上げ、さらには100人のAIアシスタントを指揮して同時に調べ物をさせることができるのです。それでは、Kimi K2.5の核心となるいくつかのハイライトを見ていきましょう。視覚とコードの完璧な融合：美的センスを持つエンジニアこれまでAIにウェブページを書かせると、構造は正しいものの見た目が地味なコードが出力されるのが常でした。しかし、Kimi K2.5はこの制限を打ち破りました。ネイティブなマルチモーダル能力を内蔵しているため、「ビジュアルコーディング（Coding with Vision）」を余裕を持ってこなします。ウェブサイトの操作動画やデザインのラフスケッチを渡してみると、K2.5はその中の視覚的なロジック、レイアウトのインタラクション、さらにはアニメーション効果まで理解します。単にテキストの指示を翻訳するだけでなく、「美しさ」と「ユーザーエクスペリエンス」を理解する経験豊富なフロントエンドエンジニアのように振る舞います。例えば、マティスの絵画のようなスタイルのウェブページが欲しいとします。K2.5はコードを生成するだけでなく、ビジュアルデバッキング（Visual Debugging）を通じて自己修正を行い、最終的な仕上がりが芸術的な美しさに合致するようにします。動画や画像から、リッチなスクロール効果を含むインタラクティブなインターフェースへ直接変換できるこの能力は、クリエイティブを完成品に変える敷居を大幅に下げます。群知能エージェントシステム：一騎当千の並列処理能力これはおそらくK2.5の最もSF的な機能でしょう。複雑な難題に直面したとき、単独での戦いは効率が悪いことがよくあります。Kimi K2.5は「群知能エージェント（Agent Swarm）」の概念を導入しました。これは単純なマルチタスクではなく、自ら指揮を執る協調システムです。 100の異なるニッチ市場を調査する必要があると想像してください。従来のAIエージェントなら、一つずつ順に検索していく必要があり、時間がかかるうえにエラーも起きやすいものでした。しかしK2.5のアーキテクチャでは、オーケストレーター（Orchestrator）がタスクを自動的に分解し、最大 100のサブエージェント（Sub-agents）を指揮して同時に作業を開始させます。これらのサブエージェントは訓練されたチームのように、最大 1,500回のツール呼び出しを並列実行します。これにより何が変わるのでしょうか？速度向上：単一エージェントモードと比較して、実行時間が 4.5倍短縮されます。自動編成：ユーザーがワークフローを事前に定義する必要はありません。K2.5がタスクのニーズに応じて、動的にこれらのサブエージェントを生成・管理します。この並列処理能力により、Kimi K2.5は広範囲検索（Wide Search）のようなタスクを処理する際に、驚異的な効率を発揮します。オフィス生産性の実質的な飛躍：実世界の重労働を解決実際のオフィスシーンでは、単純な質疑応答ではなく、高密度で長文のデータ処理に直面することがよくあります。Kimi K2.5はこの点に特化して最適化されています。 1万文字の論文であれ、100ページのドキュメントであれ、K2.5はエンドツーエンドの処理が可能です。単にこれらのデータを「読む」だけでなく、以下のような複雑な操作を実行できます： Word文書に正確な注釈を追加する。 Excelでピボットテーブルや財務モデルを作成する。 PDF内に複雑なLaTeX数式を記述する。内部テスト（AI Office Benchmark）によると、K2.5はこれらの生産性タスクの処理において、前世代のモデルと比較して著しい進歩を遂げており、本来数時間から数日かかる手作業を数分に短縮することができます。大量の文書を扱う専門家にとって、これは間違いなく朗報です。オープンソース界の性能指標：データは語る多くの機能を語りましたが、具体的な性能はどうなのでしょうか？複数の権威あるベンチマークテストにおいて、Kimi K2.5は素晴らしい成績を収めています。コーディング能力：SWE-bench Verifiedテストで 76.8% を達成し、オープンソースモデルの首位を確固たるものにしました。LMSYSの全体的なコードランキングでもトップ7に食い込み、多くのクローズドソースモデルと肩を並べています。エージェント能力：HLE（Human Lifespan Engineering）のフルセットテストで 50.2%、BrowseComp（ウェブブラウジング能力）テストで 74.9% を達成しており、これらのデータは指示の理解とツール操作においてトップクラスの水準にあることを示しています。視覚理解：MMMU ProやVideoMMMUなどの視覚ベンチマークテストでも、K2.5はオープンソース界をリードする実力を示しました。これら一連のデータは、Kimi K2.5が机上の空論ではなく、実世界のアプリケーションシーンにおいて、トップレベルのモデルと競い合う実力を備えていることを証明しています。 Kimi K2.5を使い始めるには？この新しいモデルを試したくてうずうずしているなら、いくつかのアプローチがあります。最も直接的な方法は Kimi.com または Kimiアプリを通じて利用することです。開発者の方は、APIを通じてK2.5の機能を統合することができます。

Jan 29, 2026 Read →

S …

tool

StepFun Step-Audio-R1.1登場：GPT-4oとGeminiを超える音声推論の新たな覇者

音声AIの競争の場において、誰もがOpenAIやGoogleの最新の動きを注視し、彼らが次の世界を震撼させる製品を出すことを期待しています。しかし最近、あるオープンウェイトモデルが静かにランキングのトップに上り詰め、多くのテック巨人を赤面させました。StepFunによって開発された Step-Audio-R1.1 という名のこのモデルは、音声推論能力において新記録を打ち立てただけでなく、リアルタイム対話の流暢さにおいても驚くべき実力を示しました。これが単なる普通の音声モデルだと思っているなら、それは大きな間違いです。Artificial Analysisの音声推論ベンチマーク（Speech Reasoning benchmark）において、96.4% という正解率で王座を獲得し、Grok、Gemini、さらにはGPT-Realtimeさえも大きく引き離しました。一体どうやってこれを成し遂げたのでしょうか？この技術の裏にある秘密を紐解いてみましょう。音声推論の新たな高み：データは嘘をつかないまずは最も直感的なデータのパフォーマンスを見てみましょう。Artificial AnalysisのBig Bench Audioデータセットのテスト結果によると、Step-Audio-R1.1は圧倒的な優位性を示しました。このリストでは、2位のGrok Voice Agentのスコアが92.3%、広く注目されているGPT-4o Realtime Previewは66%から68%の間にとどまりました。これは何を意味するのでしょうか？複雑な音声コマンドの処理、文脈の理解、論理的な推論において、Step-Audio-R1.1のパフォーマンスは、現在市場に出回っている高価な商用モデルよりも正確であることを示しています。これは単純な音声のテキスト変換後の再処理ではなく、真の「エンドツーエンド」（End-to-End）の音声ネイティブ推論です。モデルはテキストの書き起こしを仲介することなく、音の中にある論理を直接理解します。開発者や研究者にとって、これは心躍るニュースです。特に Hugging FaceでStep-Audio-R1.1の重みをダウンロードして、この技術を自ら検証できるとなれば、その衝撃はよりリアルなものになるでしょう。速度と知性のゲーム：従来のトレードオフを打破する長い間、AI分野には無視できない矛盾が存在しました。モデルを賢くしようとすれば、通常は反応速度を犠牲にしなければならず、速さを求めれば、推論の深さを犠牲にしなければならないというものです。しかし、リアルタイムの音声対話において、遅延はユーザー体験の天敵です。返事をするのに5秒も考え込むAIと会話したい人はいません。その気まずい沈黙は没入感を台無しにします。 Step-Audio-R1.1は、「思考ペース発話（Mind-Paced Speaking）」と呼ばれる技術を通じて、この難題を巧みに解決しました。これは、経験豊富な講演者が長時間立ち止まって考える必要がなく、話しながら考え、言葉を組み立てながら深い論理的推論を行えるようなものだと想像してください。これは独自のデュアルブレイン・アーキテクチャ（Dual-Brain Architecture）の恩恵を受けています：構想脳（Formulation Brain）：高レベルの論理的推論と内容の計画を担当します。表現脳（Articulation Brain）：音声生成の流暢さと自然さに焦点を当てます。この分業メカニズムにより、モデルは出力と同時に「思考の連鎖（Chain-of-Thought）」推論を行うことができます。その結果、速度と知性のどちらかを選択することなく、極めて低い遅延を維持しながら複雑なタスクを処理できるようになりました。この流暢さを体験したい方は、ModelScopeのDemoページで試してみることができます。音の中の論理を聞く：音響に基づく推論従来の音声モデルは、しばしば「逆スケーリング（inverted scaling）」の問題に遭遇していました。簡単に言えば、推論のためにテキストの書き起こしに過度に依存することをモデルに強いると、音声に含まれる感情、口調、微妙な間など、人間のコミュニケーションにおいてメッセージを伝える重要な部分を失ってしまう傾向があります。その結果、推論能力がかえって低下してしまいます。 Step-Audio-R1.1は Acoustic-Grounded Reasoning（音響に基づく推論）という戦略を採用しています。もはや音から変換されたテキストを単に「読む」のではなく、音自体の音響的特徴を直接「聴く」のです。反復的な自己蒸留（iterative self-distillation）技術を通じて、このモデルは音声データから直接論理的な手がかりを抽出する方法を学びました。これにより、本来負担になる可能性のあった「熟考」が利点へと変わりました。この技術的道筋は、将来の音声AIがネイティブであり、単なるテキストの運び屋ではなく、音の言語を理解しなければならないことを証明しています。オープンウェイトの意義：単なる技術展示ではない強力なパフォーマンスに加えて、Step-Audio-R1.1の最もエキサイティングな点はその「オープン性」にあります。ほとんどのトップモデルがクローズドソースを選択し、API呼び出しごとに料金を請求する現状において、StepFunはウェイトの公開（Open Weight）を選択しました。「音声推論と入力価格」の比較チャートを見ると、Step-Audio-R1.1は最も魅力的な象限に位置しています：高性能かつコスト制御可能（自己展開の場合）。低遅延の音声アシスタント、リアルタイム翻訳デバイス、または教育支援ツールを構築したい開発者にとって、これは間違いなく強力な後押しとなります。SOTAレベルの音声推論能力を手に入れるために、高価なAPI料金に縛られる必要はもうありません。よくある質問 (FAQ) この技術をより深く理解していただくために、いくつかの重要な質問をまとめました： 1. 「デュアルブレイン・アーキテクチャ」とは何ですか？また、対話の流暢さをどのように向上させますか？「デュアルブレイン・アーキテクチャ」は、Step-Audio-R1.1の核心的な設計理念です。これはモデルを2つの部分に分けます。論理と思考戦略を担当する「構想脳」と、これらのアイデアを流暢な音声に変換する「表現脳」です。これは人間が演説するとき、口では途切れることなく話しながら、頭の中では次の論点を構想しているようなものです。このメカニズムにより、モデルは反応速度を犠牲にすることなく複雑な論理演算を行い、真のリアルタイム対話を実現します。 2. Step-Audio-R1.1の96.4%という正解率はなぜ重要なのですか？この数字はArtificial AnalysisのBig Bench Audioテストによるもので、現在業界で認められている音声モデルの推論能力を測定する基準の一つです。96.4%というスコアは、このモデルが複雑な音声コマンドの理解や多段階タスクの処理において極めて高い精度を持っており、GPT-4o RealtimeやGeminiなどの商用クローズドソースモデルさえも凌駕していることを意味します。これは、オープンソースモデルが音声分野においてテック巨人と正面から対決し、さらには追い越すだけの実力をすでに備えていることを表しています。 3. Step-Audio-R1.1は従来の音声認識（Speech-to-Text）モデルとどう違いますか？従来の手法は通常、「音声からテキスト -> テキスト推論 -> テキストから音声」という3段階のプロセスであり、この過程で口調や感情などの音響情報が失われやすく、遅延も大きくなりがちです。Step-Audio-R1.1は「エンドツーエンド」（End-to-End）のネイティブ音声推論を採用しており、音響特徴上で直接演算を行います。これにより、豊富な音声の詳細が保持されるだけでなく、書き起こしプロセスのエラーも回避され、AIがより賢く、より敏感に反応するようになります。

Jan 16, 2026 Read →

L …

tool

Liquid AI LFM2.5登場：1Bパラメータモデルで端側AIの性能を再定義

Liquid AIがLFM2.5シリーズをリリースしました。1.2Bという軽量なパラメータで、デスクトップ級の性能を実現しています。本記事では、テキスト、ビジョン、日本語、およびネイティブオーディオ処理における突破口を詳細に解説し、このデバイス最適化されたオープンソースモデルが開発者エコシステムをどう変えるかを探ります。最近、AI界のトレンドが静かに変わり始めていることにお気づきでしょうか？超大型モデルが依然として注目を集める一方で、開発者コミュニティで真に話題となっているのは、自身のデバイスで動作する「小さくて美しい」モデルです。昨日、Liquid AIが衝撃的なニュースを発表しました。それがLFM2.5シリーズです。これは単なるバージョンアップではありません。10億（1B）パラメータ級のモデルが、緻密な調整によっていかに驚異的なポテンシャルを発揮できるかを示しています。 LFM2.5の核心的な目標は明確です。強力なAIをクラウドのデータセンターから連れ出し、あなたのノートPCやスマートフォン、さらには車の中に直接住まわせることです。Liquid AIは今回、事前学習データの量を10Tから28Tトークンへと引き上げただけでなく、強化学習を導入して事後学習プロセスを磨き上げました。その結果、Llama 3.2 1BやQwen 3 1.7Bといった強力なライバルを各ベンチマークで圧倒しました。それでは、今回のリリースの重要ポイントを詳しく紐解き、この「小さな巨人」ファミリーに隠された技術を見ていきましょう。 LFM2.5の核心アーキテクチャ：単なるデータの蓄積ではないここで明確にしておくべき重要な点があります。多くの人は、モデルの能力を向上させることは単に「より多くの本を読ませる」ことだと考えています。しかし、LFM2.5の成功はそれだけではありません。これは、LFM2の「デバイス最適化ハイブリッドアーキテクチャ（device-optimized hybrid architecture）」の上に築かれた進化版です。 Liquid AIは今回、より積極的な戦略をとり、事前学習の規模を約3倍（28Tトークン）に拡大しました。これは、モデルの「脳」の容量が限られている中で、より広範で高密度な知識を吸収したことを意味します。さらに重要なのは、チームが事後学習段階で強化学習を多用したことです。これは、モデルに厳しい家庭教師をつけ、論理的推論と指示遂行能力に対して高強度の特訓を行ったようなものです。開発者にとって、これは単に「話せる」モデルを手に入れるだけでなく、ツールの使い方を理解し、複雑な指示を実行できる信頼性の高いエージェント（Agent）を手に入れることを意味します。しかも、これらすべてがオープンウェイト（Open-weight）という前提で実現されています。多様なニーズに応える5つのモデルバリエーション LFM2.5は単一のモデルではなく、異なるシナリオに合わせてカスタマイズされたファミリーです。Liquid AIは今回、特定の用途に最適化された5つのモデルを一挙にリリースしました。 1. 汎用指示モデル (Instruct Model) シリーズのスター製品です。LFM2.5-1.2B-Instructは、ほとんどの開発者にとって最初の選択肢となるでしょう。教師あり微調整（SFT）と多段階の強化学習を経ており、そのままですぐに使用できます。一般的な会話、数学の問題、外部ツールの呼び出しなど、同クラスのモデルを超える安定性を示しています。反応が速く、インターネット接続なしでプライベートなデータを処理できるため、ローカルなCopilotや個人アシスタントの構築に最適です。 2. ベースモデル (Base Model) 自分でカスタマイズしたい技術ファンや企業のR&Dチーム向けに、LFM2.5-1.2B-Baseは最も純粋なキャンバスを提供します。これは指示微調整が行われる前の事前学習済みチェックポイントです。特定のドメイン（医療、法律など）専用のアシスタントを訓練したい場合や、新しい事後学習方法を試したい場合、このベースモデルが最適な出発点となります。 3. 日本語最適化モデル (Japanese Language Model) 言語の真髄は、単なる直訳ではなく、文化や文脈にあります。LFM2.5-1.2B-JPは、日本の環境に合わせて特別に構築されたチャットモデルです。オリジナル版も日本語をサポートしていますが、この専用バージョンは日本語の知識ベースと指示遂行において、このサイズのモデルとしては「最先端（SOTA）」のレベルに達しています。日本市場向けのアプリ開発において、文化的なニュアンスを極めて重視する開発者にとって、かけがえのないツールとなるでしょう。 4. ビジョン言語モデル (Vision-Language Model) 世界は視覚的であり、AIもテキストだけを理解すればいいわけではありません。LFM2.5-VL-1.6Bは、更新されたバックボーンネットワークに基づいて構築されています。最大の進歩は「複数画像の理解」と「多言語ビジョン処理」にあります。数枚の写真を渡し、日本語、英語、あるいはアラビア語で質問しても、正確に理解して回答することができます。ベンチマークでは、現実世界のシナリオを処理する能力が大幅に向上しており、環境を「見て理解する」必要があるエッジデバイスへの展開に非常に適しています。 5. ネイティブオーディオ言語モデル (Audio-Language Model) 正直なところ、今回のリリースで最もエキサイティングな部分です。従来の音声AIのプロセスは非常に煩雑でした。まず音声をテキストに変換（ASR）し、LLMに考えさせ、再びテキストを音声に変換（TTS）します。これでは遅延が大きく、語気や感情も失われがちです。 LFM2.5-Audio-1.5Bは、エンドツーエンドのネイティブ処理方式を採用しています。音声入力を直接受け取り、音声を直接出力します。このアーキテクチャにより、中間段階での情報の損失がなくなり、遅延が大幅に削減されました。公式データによると、その核心となるオーディオデトークナイザーは前世代より8倍高速です。これにより、車載システムやIoTデバイスにおいて、クラウド処理を待つことなく、本物の人間のような即時の音声対話が可能になります。展開とエコシステム：AIを真に実用化するモデルがいかに強力でも、展開が難しければ、それは研究室の玩具にすぎません。Liquid AIはこの点を熟知しており、互換性に非常に力を入れています。LFM2.5はリリース初日から主要な推論フレームワークをサポートしています。 llama.cpp： CPU推論のゴールドスタンダードです。GGUF形式を通じて、LFM2.5は一般的な様々なハードウェア上でスムーズに動作します。 MLX： Appleエコシステムの開発者にとって朗報です。LFM2.5はApple Siliconのユニファイドメモリ・アーキテクチャ向けに最適化されており、MacBookユーザーは極めて高速な推論を享受できます。 ONNX：クラウドからエッジデバイスまで、クロスプラットフォームなハードウェアサポートを提供します。パートナーによる最適化： Liquid AIはAMDおよびNexa AIと提携し、モデルがNPU（ニューラル・プロセッシング・ユニット）上で効率的に動作するようにしました。これは、ノートPCやスマートフォンで長時間AIを動作させ、バッテリー消費を抑えたいユーザーにとって極めて重要です。これらのモデルはHugging Faceで直接ダウンロードできるほか、Liquidの公式ブログで技術的な詳細を確認できます。性能実測：数字が語る実力ベンチマークテストにおいて、LFM2.5はそのサイズ以上の実力を示しました。LFM2.5-1.2B-Instructを例にとると、MMLU-Pro（知識）、IFEval（指示遂行）、GPQA（科学的Q&A）などのテストで、Llama 3.2 1B InstructやGemma 3 1B ITを大きく上回るスコアを記録しました。

Jan 6, 2026 Read →