GLM-4.6V登場：視覚認識と動作実行のシームレスな統合

GLM-4.6Vシリーズモデルが正式に発表され、クラウドの高性能とローカルの低遅延シナリオをそれぞれターゲットにした106Bと9Bの2つのバージョンが登場しました。この記事では、そのネイティブなFunction Calling機能がどのように「見る」と「行う」の境界を取り払い、長文ドキュメントの理解、フロントエンドコードの生成、そして混合画像・テキスト作成における実際の応用について深く掘り下げます。詳細なベンチマークデータとデプロイリソースも添付されています。

視覚モデルの新たなマイルストーン：単なる「理解」を超えて

人工知能分野の発展は常に目を見張るものがあります。言語モデルが流暢に話すことに慣れてきた矢先、マルチモーダルAI（Multimodal AI）がその基準をさらに引き上げました。今回のGLM-4.6Vのリリースは、非常に興味深いシグナルをもたらしました。モデルはもはや「画像を見て話す」だけでは満足せず、「画像を見て行動する」ことを試み始めています。

GLM-4.6Vシリーズは2つのバージョンをリリースしました。1つはクラウドおよび高性能コンピューティングクラスター向けに設計された基盤モデルGLM-4.6V (106B)、もう1つはローカルデプロイと低遅延アプリケーション向けに最適化された軽量モデル**GLM-4.6V-Flash (9B)**です。両モデルともトレーニング時にコンテキストウィンドウを128kトークンまで拡張しており、これは一度に処理できる情報量が驚異的であることを意味します。

これは単なるパラメータ数の積み上げではありません。今回のアップデートの核心的なブレークスルーは、「ネイティブなFunction Calling（関数呼び出し）」の統合にあります。これは少し専門的に聞こえるかもしれませんが、簡単に言えば、AIを単なるコメントする観察者から、実際に手を動かして問題を解決する実行者に変えるものです。

認識と行動をつなぐ：ネイティブな視覚駆動ツール使用

これまで、マルチモーダルモデルがタスクを処理する際、通常は見た画像をまずテキスト記述に変換し、そのテキストに基づいてツールを呼び出す必要がありました。この変換プロセスでは、詳細が失われたり、誤解が生じたりすることがよくありました。

GLM-4.6Vは異なるアプローチをとっています。Native Multimodal Function Callingを導入しました。これは、画像、スクリーンショット、またはドキュメントページを、テキスト変換の手順を経ずに直接ツールの入力パラメータとして使用できることを意味します。複雑なレポートのスクリーンショットをモデルに投げると、モデルはそれをテキストに「翻訳」する必要はなく、画像を直接「見て」検索ツールや計算ツールを呼び出し、最終的な結果（チャートであれレンダリングされたページであれ）も推論チェーンに直接統合できると想像してください。

これは、「視覚認識」から「理解」、そして「実行」への閉ループを真に実現しました。開発者にとって、これは実際のビジネスシナリオを処理できるAIエージェント（Agent）を構築するための、より統一された技術基盤を提供します。

混合画像・テキスト作成：人間のようにコンテンツを構成する

コンテンツクリエイターは、Interleaved Image-Text Content Generation（画像とテキストが交錯するコンテンツ生成）という機能に特に興味を持つかもしれません。

以前、AIに画像付きの記事を書かせる場合、通常は別々に行われていました。まず文章を書き、次に画像を探すという手順です。しかし、GLM-4.6Vは、ドキュメント、ユーザー入力、ツール検索画像を含むマルチモーダルなコンテキストを処理できます。コンテンツ生成プロセスにおいて、検索および取得ツールを自発的に呼び出し、追加のテキストや視覚素材を収集・選別します。

最終的に生成される結果は、タスクに合わせて調整された、画像とテキストが調和した一貫性のあるコンテンツです。それはまるで、素材を強引につなぎ合わせるのではなく、テキストの重要な箇所に裏付けとなる画像を挿入する方法を知っている経験豊富な編集者のようです。

長文ドキュメントと複雑なチャートの天敵

ビジネス文書を扱う際、最も頭を悩ませるのは、フォーマットが複雑なPDFやスキャンデータであることがよくあります。GLM-4.6VはMultimodal Document Understanding機能を備えており、最大128Kトークンのマルチドキュメントまたは長文ドキュメント入力を処理できます。

これには大きな利点があります。フォーマット豊富なページを画像として直接理解できるということです。つまり、テキスト、レイアウト、チャート、表、画像を同時に読み取ることができます。これにより、従来のOCR（光学文字認識）技術がすべてをプレーンテキストに変換する際に、レイアウト構造が失われたり、表がずれたりする問題を回避できます。大量の決算報告書や技術マニュアルを分析する必要がある専門家にとって、これは校正時間を大幅に節約できます。

フロントエンドエンジニアのAIアシスタント：スクリーンショットからコードへ

Web開発者にとって、Frontend Replication & Visual Editingは非常に実用的な機能です。

モデルにUIのスクリーンショットを渡すだけで、対応するHTMLとCSSコードをピクセルレベルで復元できます。レイアウト、コンポーネント、スタイルを視覚的に検出し、クリーンなコードを生成します。さらにすごいのは、自然言語による修正をサポートしていることです。ボタンの色が違う、レイアウトが詰まりすぎていると感じたら、デザイナーに話すように指示を出すだけで、モデルは反復的な視覚的修正を行います。

性能評価：106B対9Bの実力対決

これだけの機能を語りましたが、実際のパフォーマンスはどうでしょうか？具体的な評価データを見てみましょう。この表は、GLM-4.6Vの2つのバージョンの各ベンチマークにおけるスコアを示しています。

注目すべきは、Flashバージョン（9B）はパラメータが小さいものの、多くのタスクで106Bバージョンとの差がそれほど大きくないことです。これはそのコストパフォーマンスが非常に高く、リソースが制限されたローカルデプロイに非常に適していることを示しています。

GLM-4.6Vシリーズベンチマーク結果

ベンチマーク (Benchmarks)	GLM-4.6V (106B)	GLM-4.6V-Flash (9B)	GLM-4.5V (106B)	Qwen3-VL-8B	Kimi-VL-A3B
General VQA (一般視覚応答)
MMBench V1.1	88.8	86.9	88.2	84.3	84.4
MMBench V1.1 (CN)	88.2	85.9	88.3	83.3	80.7
MMStar	75.9	74.7	75.3	75.3	70.4
BLINK (Val)	65.5	65.5	65.3	64.7	53.5
MUIRBENCH	77.1	75.7	75.3	76.8	63.8
Multimodal Reasoning (マルチモーダル推論)
MMMU (Val)	76.0	71.1	75.4	74.1	64.0
MMMU_Pro	66.0	60.6	65.2	60.4	46.3
VideoMMMU	74.7	70.1	72.4	72.8	65.2
MathVista	85.2	82.7	84.6	81.4	80.1
AI2D	88.8	89.2	88.1	84.9	81.9
Multimodal Agentic (マルチモーダルエージェント)
Design2Code	88.6	69.8	82.2	56.6	38.8
Flame-React-Eval	86.3	78.8	82.5	56.3	36.3
OSWorld	37.2	21.1	35.8	33.9	8.2
AndroidWorld	57.0	42.7	57.0	50.0	-
WebVoyager	81.0	71.8	84.4	47.7	-
OCR & Chart (文字認識とチャート)
OCRBench	86.5	84.7	86.5	81.9	86.9
ChartQAPro	65.5	62.6	64.0	58.4	23.7
Spatial & Grounding (空間と位置特定)
RefCOCO-avg (val)	88.6	85.6	91.3	89.3	33.6
Ref-L4-test	88.9	87.7	89.5	88.6	51.3

データからわかるように、GLM-4.6Vはマルチモーダルエージェント（Agentic）と推論（Reasoning）の面での向上が特に顕著であり、これは「行動実行」能力の強化を裏付けています。

入手方法とデプロイ

このモデルを試してみたい開発者は、現在Hugging FaceからGLM-4.6Vシリーズモデルをダウンロードして使用することができます。

ローカルデプロイの愛好家で、llama.cppを使用してモデルを実行することに慣れている場合、少し注意が必要です。現在、GLM 4.5V/4.6Vに対するllama.cppのサポートはまだドラフト段階（Draft PR）にあり、コミュニティは積極的に推進していますが、まだ十分に安定していない可能性があります。進捗状況の追跡やテストへの参加に興味がある方は、このGitHub Pull Request #16600をフォローしてください。

これは、この新しいモデルをローカルで完全に実行するには、もう少し待つ必要があるか、まだマージされていないコードを処理するためのデバッグ能力が必要になるかもしれないことを意味します。

よくある質問 (FAQ)

GLM-4.6Vの特徴をより早く理解していただくために、いくつかの核心的なQ&Aをまとめました：

Q1：GLM-4.6VとGLM-4.6V-Flashの主な違いは何ですか？ GLM-4.6V (106B)はクラウドおよび高性能クラスター向けに設計されたフラッグシップモデルで、最も複雑な推論やマルチモーダルタスクの処理に適しています。一方、GLM-4.6V-Flash (9B)はローカルデプロイおよび低遅延シナリオ向けに最適化された軽量バージョンであり、パラメータは少ないものの、多くのベンチマークで依然としてフラッグシップモデルに近い実力を示しています。

Q2：「ネイティブなマルチモーダルFunction Calling」とは何ですか？ これは、モデルが画像（スクリーンショット、ドキュメントなど）をテキストに変換することなく、直接ツールの入力パラメータとして受け取ることができることを意味します。これにより、モデルはエラーのスクリーンショットに基づいて検索ツールを直接呼び出すなど、より正確に「見て操作する」ことができ、実際のビジネスシナリオにおけるAIエージェントの実行効率が大幅に向上します。

Q3：これを使ってWebコードを書くことはできますか？ はい、可能です。GLM-4.6Vはフロントエンドの複製と視覚的な編集機能を備えています。UIのスクリーンショットをアップロードすると、モデルは対応するHTMLとCSSコードを生成します。さらに、自然言語の指示（「ボタンをもう少し大きくして」など）を使用して、満足いくまでモデルにコードを修正させることもできます。

Q4：現在、ローカルデバイスでGLM-4.6Vを実行できますか？ 理論的には可能です。特に9BのFlashバージョンはローカル実行に非常に適しています。ただし、主流のローカル推論フレームワークであるllama.cppでのこのシリーズのサポートは現在まだ開発中（Draft段階）であるため、一般ユーザーが最もスムーズな体験を得るには、公式サポートがマージされるのを待つ必要があるかもしれません。

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

K …

tool

Kimi K2.5モデル解説：オープンソース界の新たな指標、ビジュアルコーディングとマルチエージェント協調の実力

Moonshot AIが最新のオープンソースモデルKimi K2.5を発表。ネイティブなマルチモーダル能力と強力な「群知能エージェント（Agent Swarm）」技術を搭載しています。本記事では、ビジュアルコード生成、マルチエージェント協調、そして複雑なオフィス業務におけるその画期的なパフォーマンスを詳細に分析し、単一エージェントを超える効率をいかにより低いコストで実現しているかを探ります。技術界隈で最近、心躍るニュースがありました。Moonshot AIが正式に Kimi K2.5 をリリースしたのです。これは単なるモデルのアップデートではありません。現在利用可能な最も強力なオープンソースモデルの一つです。約15T（兆）の視覚とテキストの混合トークンによる継続的な事前学習を経て、K2.5はコーディング、視覚理解、そしてエージェント協調（Agent Swarm）において、印象的な実力を示しています。開発者やプロフェッショナルにとって、これは何を意味するのでしょうか？簡単に言えば、渡された動画を理解し、美しいウェブページを書き上げ、さらには100人のAIアシスタントを指揮して同時に調べ物をさせることができるのです。それでは、Kimi K2.5の核心となるいくつかのハイライトを見ていきましょう。視覚とコードの完璧な融合：美的センスを持つエンジニアこれまでAIにウェブページを書かせると、構造は正しいものの見た目が地味なコードが出力されるのが常でした。しかし、Kimi K2.5はこの制限を打ち破りました。ネイティブなマルチモーダル能力を内蔵しているため、「ビジュアルコーディング（Coding with Vision）」を余裕を持ってこなします。ウェブサイトの操作動画やデザインのラフスケッチを渡してみると、K2.5はその中の視覚的なロジック、レイアウトのインタラクション、さらにはアニメーション効果まで理解します。単にテキストの指示を翻訳するだけでなく、「美しさ」と「ユーザーエクスペリエンス」を理解する経験豊富なフロントエンドエンジニアのように振る舞います。例えば、マティスの絵画のようなスタイルのウェブページが欲しいとします。K2.5はコードを生成するだけでなく、ビジュアルデバッキング（Visual Debugging）を通じて自己修正を行い、最終的な仕上がりが芸術的な美しさに合致するようにします。動画や画像から、リッチなスクロール効果を含むインタラクティブなインターフェースへ直接変換できるこの能力は、クリエイティブを完成品に変える敷居を大幅に下げます。群知能エージェントシステム：一騎当千の並列処理能力これはおそらくK2.5の最もSF的な機能でしょう。複雑な難題に直面したとき、単独での戦いは効率が悪いことがよくあります。Kimi K2.5は「群知能エージェント（Agent Swarm）」の概念を導入しました。これは単純なマルチタスクではなく、自ら指揮を執る協調システムです。 100の異なるニッチ市場を調査する必要があると想像してください。従来のAIエージェントなら、一つずつ順に検索していく必要があり、時間がかかるうえにエラーも起きやすいものでした。しかしK2.5のアーキテクチャでは、オーケストレーター（Orchestrator）がタスクを自動的に分解し、最大 100のサブエージェント（Sub-agents）を指揮して同時に作業を開始させます。これらのサブエージェントは訓練されたチームのように、最大 1,500回のツール呼び出しを並列実行します。これにより何が変わるのでしょうか？速度向上：単一エージェントモードと比較して、実行時間が 4.5倍短縮されます。自動編成：ユーザーがワークフローを事前に定義する必要はありません。K2.5がタスクのニーズに応じて、動的にこれらのサブエージェントを生成・管理します。この並列処理能力により、Kimi K2.5は広範囲検索（Wide Search）のようなタスクを処理する際に、驚異的な効率を発揮します。オフィス生産性の実質的な飛躍：実世界の重労働を解決実際のオフィスシーンでは、単純な質疑応答ではなく、高密度で長文のデータ処理に直面することがよくあります。Kimi K2.5はこの点に特化して最適化されています。 1万文字の論文であれ、100ページのドキュメントであれ、K2.5はエンドツーエンドの処理が可能です。単にこれらのデータを「読む」だけでなく、以下のような複雑な操作を実行できます： Word文書に正確な注釈を追加する。 Excelでピボットテーブルや財務モデルを作成する。 PDF内に複雑なLaTeX数式を記述する。内部テスト（AI Office Benchmark）によると、K2.5はこれらの生産性タスクの処理において、前世代のモデルと比較して著しい進歩を遂げており、本来数時間から数日かかる手作業を数分に短縮することができます。大量の文書を扱う専門家にとって、これは間違いなく朗報です。オープンソース界の性能指標：データは語る多くの機能を語りましたが、具体的な性能はどうなのでしょうか？複数の権威あるベンチマークテストにおいて、Kimi K2.5は素晴らしい成績を収めています。コーディング能力：SWE-bench Verifiedテストで 76.8% を達成し、オープンソースモデルの首位を確固たるものにしました。LMSYSの全体的なコードランキングでもトップ7に食い込み、多くのクローズドソースモデルと肩を並べています。エージェント能力：HLE（Human Lifespan Engineering）のフルセットテストで 50.2%、BrowseComp（ウェブブラウジング能力）テストで 74.9% を達成しており、これらのデータは指示の理解とツール操作においてトップクラスの水準にあることを示しています。視覚理解：MMMU ProやVideoMMMUなどの視覚ベンチマークテストでも、K2.5はオープンソース界をリードする実力を示しました。これら一連のデータは、Kimi K2.5が机上の空論ではなく、実世界のアプリケーションシーンにおいて、トップレベルのモデルと競い合う実力を備えていることを証明しています。 Kimi K2.5を使い始めるには？この新しいモデルを試したくてうずうずしているなら、いくつかのアプローチがあります。最も直接的な方法は Kimi.com または Kimiアプリを通じて利用することです。開発者の方は、APIを通じてK2.5の機能を統合することができます。

Jan 29, 2026 Read →

S …

tool

StepFun Step-Audio-R1.1登場：GPT-4oとGeminiを超える音声推論の新たな覇者

音声AIの競争の場において、誰もがOpenAIやGoogleの最新の動きを注視し、彼らが次の世界を震撼させる製品を出すことを期待しています。しかし最近、あるオープンウェイトモデルが静かにランキングのトップに上り詰め、多くのテック巨人を赤面させました。StepFunによって開発された Step-Audio-R1.1 という名のこのモデルは、音声推論能力において新記録を打ち立てただけでなく、リアルタイム対話の流暢さにおいても驚くべき実力を示しました。これが単なる普通の音声モデルだと思っているなら、それは大きな間違いです。Artificial Analysisの音声推論ベンチマーク（Speech Reasoning benchmark）において、96.4% という正解率で王座を獲得し、Grok、Gemini、さらにはGPT-Realtimeさえも大きく引き離しました。一体どうやってこれを成し遂げたのでしょうか？この技術の裏にある秘密を紐解いてみましょう。音声推論の新たな高み：データは嘘をつかないまずは最も直感的なデータのパフォーマンスを見てみましょう。Artificial AnalysisのBig Bench Audioデータセットのテスト結果によると、Step-Audio-R1.1は圧倒的な優位性を示しました。このリストでは、2位のGrok Voice Agentのスコアが92.3%、広く注目されているGPT-4o Realtime Previewは66%から68%の間にとどまりました。これは何を意味するのでしょうか？複雑な音声コマンドの処理、文脈の理解、論理的な推論において、Step-Audio-R1.1のパフォーマンスは、現在市場に出回っている高価な商用モデルよりも正確であることを示しています。これは単純な音声のテキスト変換後の再処理ではなく、真の「エンドツーエンド」（End-to-End）の音声ネイティブ推論です。モデルはテキストの書き起こしを仲介することなく、音の中にある論理を直接理解します。開発者や研究者にとって、これは心躍るニュースです。特に Hugging FaceでStep-Audio-R1.1の重みをダウンロードして、この技術を自ら検証できるとなれば、その衝撃はよりリアルなものになるでしょう。速度と知性のゲーム：従来のトレードオフを打破する長い間、AI分野には無視できない矛盾が存在しました。モデルを賢くしようとすれば、通常は反応速度を犠牲にしなければならず、速さを求めれば、推論の深さを犠牲にしなければならないというものです。しかし、リアルタイムの音声対話において、遅延はユーザー体験の天敵です。返事をするのに5秒も考え込むAIと会話したい人はいません。その気まずい沈黙は没入感を台無しにします。 Step-Audio-R1.1は、「思考ペース発話（Mind-Paced Speaking）」と呼ばれる技術を通じて、この難題を巧みに解決しました。これは、経験豊富な講演者が長時間立ち止まって考える必要がなく、話しながら考え、言葉を組み立てながら深い論理的推論を行えるようなものだと想像してください。これは独自のデュアルブレイン・アーキテクチャ（Dual-Brain Architecture）の恩恵を受けています：構想脳（Formulation Brain）：高レベルの論理的推論と内容の計画を担当します。表現脳（Articulation Brain）：音声生成の流暢さと自然さに焦点を当てます。この分業メカニズムにより、モデルは出力と同時に「思考の連鎖（Chain-of-Thought）」推論を行うことができます。その結果、速度と知性のどちらかを選択することなく、極めて低い遅延を維持しながら複雑なタスクを処理できるようになりました。この流暢さを体験したい方は、ModelScopeのDemoページで試してみることができます。音の中の論理を聞く：音響に基づく推論従来の音声モデルは、しばしば「逆スケーリング（inverted scaling）」の問題に遭遇していました。簡単に言えば、推論のためにテキストの書き起こしに過度に依存することをモデルに強いると、音声に含まれる感情、口調、微妙な間など、人間のコミュニケーションにおいてメッセージを伝える重要な部分を失ってしまう傾向があります。その結果、推論能力がかえって低下してしまいます。 Step-Audio-R1.1は Acoustic-Grounded Reasoning（音響に基づく推論）という戦略を採用しています。もはや音から変換されたテキストを単に「読む」のではなく、音自体の音響的特徴を直接「聴く」のです。反復的な自己蒸留（iterative self-distillation）技術を通じて、このモデルは音声データから直接論理的な手がかりを抽出する方法を学びました。これにより、本来負担になる可能性のあった「熟考」が利点へと変わりました。この技術的道筋は、将来の音声AIがネイティブであり、単なるテキストの運び屋ではなく、音の言語を理解しなければならないことを証明しています。オープンウェイトの意義：単なる技術展示ではない強力なパフォーマンスに加えて、Step-Audio-R1.1の最もエキサイティングな点はその「オープン性」にあります。ほとんどのトップモデルがクローズドソースを選択し、API呼び出しごとに料金を請求する現状において、StepFunはウェイトの公開（Open Weight）を選択しました。「音声推論と入力価格」の比較チャートを見ると、Step-Audio-R1.1は最も魅力的な象限に位置しています：高性能かつコスト制御可能（自己展開の場合）。低遅延の音声アシスタント、リアルタイム翻訳デバイス、または教育支援ツールを構築したい開発者にとって、これは間違いなく強力な後押しとなります。SOTAレベルの音声推論能力を手に入れるために、高価なAPI料金に縛られる必要はもうありません。よくある質問 (FAQ) この技術をより深く理解していただくために、いくつかの重要な質問をまとめました： 1. 「デュアルブレイン・アーキテクチャ」とは何ですか？また、対話の流暢さをどのように向上させますか？「デュアルブレイン・アーキテクチャ」は、Step-Audio-R1.1の核心的な設計理念です。これはモデルを2つの部分に分けます。論理と思考戦略を担当する「構想脳」と、これらのアイデアを流暢な音声に変換する「表現脳」です。これは人間が演説するとき、口では途切れることなく話しながら、頭の中では次の論点を構想しているようなものです。このメカニズムにより、モデルは反応速度を犠牲にすることなく複雑な論理演算を行い、真のリアルタイム対話を実現します。 2. Step-Audio-R1.1の96.4%という正解率はなぜ重要なのですか？この数字はArtificial AnalysisのBig Bench Audioテストによるもので、現在業界で認められている音声モデルの推論能力を測定する基準の一つです。96.4%というスコアは、このモデルが複雑な音声コマンドの理解や多段階タスクの処理において極めて高い精度を持っており、GPT-4o RealtimeやGeminiなどの商用クローズドソースモデルさえも凌駕していることを意味します。これは、オープンソースモデルが音声分野においてテック巨人と正面から対決し、さらには追い越すだけの実力をすでに備えていることを表しています。 3. Step-Audio-R1.1は従来の音声認識（Speech-to-Text）モデルとどう違いますか？従来の手法は通常、「音声からテキスト -> テキスト推論 -> テキストから音声」という3段階のプロセスであり、この過程で口調や感情などの音響情報が失われやすく、遅延も大きくなりがちです。Step-Audio-R1.1は「エンドツーエンド」（End-to-End）のネイティブ音声推論を採用しており、音響特徴上で直接演算を行います。これにより、豊富な音声の詳細が保持されるだけでなく、書き起こしプロセスのエラーも回避され、AIがより賢く、より敏感に反応するようになります。

Jan 16, 2026 Read →

L …

tool

Liquid AI LFM2.5登場：1Bパラメータモデルで端側AIの性能を再定義

Liquid AIがLFM2.5シリーズをリリースしました。1.2Bという軽量なパラメータで、デスクトップ級の性能を実現しています。本記事では、テキスト、ビジョン、日本語、およびネイティブオーディオ処理における突破口を詳細に解説し、このデバイス最適化されたオープンソースモデルが開発者エコシステムをどう変えるかを探ります。最近、AI界のトレンドが静かに変わり始めていることにお気づきでしょうか？超大型モデルが依然として注目を集める一方で、開発者コミュニティで真に話題となっているのは、自身のデバイスで動作する「小さくて美しい」モデルです。昨日、Liquid AIが衝撃的なニュースを発表しました。それがLFM2.5シリーズです。これは単なるバージョンアップではありません。10億（1B）パラメータ級のモデルが、緻密な調整によっていかに驚異的なポテンシャルを発揮できるかを示しています。 LFM2.5の核心的な目標は明確です。強力なAIをクラウドのデータセンターから連れ出し、あなたのノートPCやスマートフォン、さらには車の中に直接住まわせることです。Liquid AIは今回、事前学習データの量を10Tから28Tトークンへと引き上げただけでなく、強化学習を導入して事後学習プロセスを磨き上げました。その結果、Llama 3.2 1BやQwen 3 1.7Bといった強力なライバルを各ベンチマークで圧倒しました。それでは、今回のリリースの重要ポイントを詳しく紐解き、この「小さな巨人」ファミリーに隠された技術を見ていきましょう。 LFM2.5の核心アーキテクチャ：単なるデータの蓄積ではないここで明確にしておくべき重要な点があります。多くの人は、モデルの能力を向上させることは単に「より多くの本を読ませる」ことだと考えています。しかし、LFM2.5の成功はそれだけではありません。これは、LFM2の「デバイス最適化ハイブリッドアーキテクチャ（device-optimized hybrid architecture）」の上に築かれた進化版です。 Liquid AIは今回、より積極的な戦略をとり、事前学習の規模を約3倍（28Tトークン）に拡大しました。これは、モデルの「脳」の容量が限られている中で、より広範で高密度な知識を吸収したことを意味します。さらに重要なのは、チームが事後学習段階で強化学習を多用したことです。これは、モデルに厳しい家庭教師をつけ、論理的推論と指示遂行能力に対して高強度の特訓を行ったようなものです。開発者にとって、これは単に「話せる」モデルを手に入れるだけでなく、ツールの使い方を理解し、複雑な指示を実行できる信頼性の高いエージェント（Agent）を手に入れることを意味します。しかも、これらすべてがオープンウェイト（Open-weight）という前提で実現されています。多様なニーズに応える5つのモデルバリエーション LFM2.5は単一のモデルではなく、異なるシナリオに合わせてカスタマイズされたファミリーです。Liquid AIは今回、特定の用途に最適化された5つのモデルを一挙にリリースしました。 1. 汎用指示モデル (Instruct Model) シリーズのスター製品です。LFM2.5-1.2B-Instructは、ほとんどの開発者にとって最初の選択肢となるでしょう。教師あり微調整（SFT）と多段階の強化学習を経ており、そのままですぐに使用できます。一般的な会話、数学の問題、外部ツールの呼び出しなど、同クラスのモデルを超える安定性を示しています。反応が速く、インターネット接続なしでプライベートなデータを処理できるため、ローカルなCopilotや個人アシスタントの構築に最適です。 2. ベースモデル (Base Model) 自分でカスタマイズしたい技術ファンや企業のR&Dチーム向けに、LFM2.5-1.2B-Baseは最も純粋なキャンバスを提供します。これは指示微調整が行われる前の事前学習済みチェックポイントです。特定のドメイン（医療、法律など）専用のアシスタントを訓練したい場合や、新しい事後学習方法を試したい場合、このベースモデルが最適な出発点となります。 3. 日本語最適化モデル (Japanese Language Model) 言語の真髄は、単なる直訳ではなく、文化や文脈にあります。LFM2.5-1.2B-JPは、日本の環境に合わせて特別に構築されたチャットモデルです。オリジナル版も日本語をサポートしていますが、この専用バージョンは日本語の知識ベースと指示遂行において、このサイズのモデルとしては「最先端（SOTA）」のレベルに達しています。日本市場向けのアプリ開発において、文化的なニュアンスを極めて重視する開発者にとって、かけがえのないツールとなるでしょう。 4. ビジョン言語モデル (Vision-Language Model) 世界は視覚的であり、AIもテキストだけを理解すればいいわけではありません。LFM2.5-VL-1.6Bは、更新されたバックボーンネットワークに基づいて構築されています。最大の進歩は「複数画像の理解」と「多言語ビジョン処理」にあります。数枚の写真を渡し、日本語、英語、あるいはアラビア語で質問しても、正確に理解して回答することができます。ベンチマークでは、現実世界のシナリオを処理する能力が大幅に向上しており、環境を「見て理解する」必要があるエッジデバイスへの展開に非常に適しています。 5. ネイティブオーディオ言語モデル (Audio-Language Model) 正直なところ、今回のリリースで最もエキサイティングな部分です。従来の音声AIのプロセスは非常に煩雑でした。まず音声をテキストに変換（ASR）し、LLMに考えさせ、再びテキストを音声に変換（TTS）します。これでは遅延が大きく、語気や感情も失われがちです。 LFM2.5-Audio-1.5Bは、エンドツーエンドのネイティブ処理方式を採用しています。音声入力を直接受け取り、音声を直接出力します。このアーキテクチャにより、中間段階での情報の損失がなくなり、遅延が大幅に削減されました。公式データによると、その核心となるオーディオデトークナイザーは前世代より8倍高速です。これにより、車載システムやIoTデバイスにおいて、クラウド処理を待つことなく、本物の人間のような即時の音声対話が可能になります。展開とエコシステム：AIを真に実用化するモデルがいかに強力でも、展開が難しければ、それは研究室の玩具にすぎません。Liquid AIはこの点を熟知しており、互換性に非常に力を入れています。LFM2.5はリリース初日から主要な推論フレームワークをサポートしています。 llama.cpp： CPU推論のゴールドスタンダードです。GGUF形式を通じて、LFM2.5は一般的な様々なハードウェア上でスムーズに動作します。 MLX： Appleエコシステムの開発者にとって朗報です。LFM2.5はApple Siliconのユニファイドメモリ・アーキテクチャ向けに最適化されており、MacBookユーザーは極めて高速な推論を享受できます。 ONNX：クラウドからエッジデバイスまで、クロスプラットフォームなハードウェアサポートを提供します。パートナーによる最適化： Liquid AIはAMDおよびNexa AIと提携し、モデルがNPU（ニューラル・プロセッシング・ユニット）上で効率的に動作するようにしました。これは、ノートPCやスマートフォンで長時間AIを動作させ、バッテリー消費を抑えたいユーザーにとって極めて重要です。これらのモデルはHugging Faceで直接ダウンロードできるほか、Liquidの公式ブログで技術的な詳細を確認できます。性能実測：数字が語る実力ベンチマークテストにおいて、LFM2.5はそのサイズ以上の実力を示しました。LFM2.5-1.2B-Instructを例にとると、MMLU-Pro（知識）、IFEval（指示遂行）、GPQA（科学的Q&A）などのテストで、Llama 3.2 1B InstructやGemma 3 1B ITを大きく上回るスコアを記録しました。

Jan 6, 2026 Read →

GLM-4.6V登場：視覚認識と動作実行のシームレスな統合

視覚モデルの新たなマイルストーン：単なる「理解」を超えて

認識と行動をつなぐ：ネイティブな視覚駆動ツール使用

混合画像・テキスト作成：人間のようにコンテンツを構成する

長文ドキュメントと複雑なチャートの天敵

フロントエンドエンジニアのAIアシスタント：スクリーンショットからコードへ

性能評価：106B対9Bの実力対決

GLM-4.6Vシリーズ ベンチマーク結果

入手方法とデプロイ

よくある質問 (FAQ)

videoweaver.app

DMflow.chat

DMflow.chat

videoweaver.app

DMflow.chat

DMflow.chat

Recommended for You

Kimi K2.5モデル解説：オープンソース界の新たな指標、ビジュアルコーディングとマルチエージェント協調の実力

StepFun Step-Audio-R1.1登場：GPT-4oとGeminiを超える音声推論の新たな覇者

Liquid AI LFM2.5登場：1Bパラメータモデルで端側AIの性能を再定義

GLM-4.6Vシリーズベンチマーク結果