將強大 AI 裝進口袋！Liquid AI 端側模型 LFM2.5-8B-A1B 深度解析

【Edge AI 解析】Liquid AI LFM2.5-8B-A1B：讓筆電與手機輕鬆駕馭的混合專家模型

探討 Liquid AI 最新推出的端側模型 LFM2.5-8B-A1B 技術突破。從 128K 上下文擴展到特殊的僅推理設計，解析這款 MoE 模型如何在不依賴雲端算力的情況下，讓日常消費級硬體化身為強大且具備高度隱私的專屬超級助理。

曾經想過在一台效能普通的筆記型電腦上，流暢運行強大的混合專家模型 (MoE) 嗎？許多人可能覺得這需要極度昂貴的伺服器才能辦到。其實情況已經完全改觀。

過度依賴雲端運算帶來了隱私隱患與網路延遲，讓端側人工智慧 (Edge AI) 成為極為關鍵的發展方向。Liquid AI 於 2026 年 5 月 28 日正式推出 LFM2.5-8B-A1B，為消費級硬體帶來了全新的解答。這款專為一般筆電和手機設計的模型，主打完全離線的工具呼叫與指令遵循能力。社群裡甚至有人開玩笑說，這款模型就算是用「馬鈴薯」等級的老舊設備也能跑得動。這聽起來或許有些誇張，但它的硬體需求確實極低，真正實現了將強大 AI 裝進口袋的願景。

核心規格大躍進：128K 上下文與 38T 預訓練的威力

接下來看看這款模型的引擎蓋底下藏了什麼。相較於前一代版本，LFM2.5-8B-A1B 的核心規格有著跳躍性的成長。開發團隊將預訓練資料量從 12T 暴增至 38T 權杖 (tokens)，經歷了極大規模的強化學習。

同時，它的上下文視窗也從原先的 32K 大幅擴展到了 128K。這代表著設備現在可以直接在本地端處理極長的文本或複雜的合約文件。老實說，處理長篇文件一向是小型模型的弱點。這款新模型卻輕鬆跨越了這個障礙。除此之外，為了提升多語系的處理效率，它的詞彙表 (Vocabulary) 大小直接翻倍至 128K。這項改動對於非拉丁語系的使用者極度友善。印地語、泰語、越南語以及阿拉伯語等語言的標記化 (Tokenization) 效率因此顯著提升。也就是說，它在處理這些語言時會更聰明，消耗的運算資源也更少。

特殊的「僅推理」設計與降幻覺機制

談到技術細節，這裡有個看似矛盾的設計。LFM2.5-8B-A1B 採用了「僅推理 (Reasoning-only)」策略。要求一個小型模型在給出答案前強制產生明確的思維鏈，聽起來似乎會拖慢運作速度。不過這裡需要稍微解釋一下。

因為它採用混合專家架構，每次啟動的活躍參數其實非常少。這使得產生思考權杖的運算成本變得極低。模型能在完全不犧牲速度的前提下，產出品質極高的回答。當然，端側模型先天就有一項劣勢，也就是知識容量有限，容易產生幻覺。為了克服這個難題，研發團隊加入了一套基於 avg@k 獎勵的強化學習階段。這套機制非常有意思，它教會了模型一件事：懂得「藏拙」。當遇到超出自身知識範圍的問題時，模型會主動放棄回答 (abstention)，進而劃出清晰的知識邊界。這不僅提升了應答的可靠性，也大幅降低了胡言亂語的機率。

硬體執行效率驚人：日常筆電與手機輕鬆上手

理論聽起來很棒，那麼實際跑起來的數據如何？這正是最讓人眼睛一亮的地方。在 Apple M5 Max 晶片上，它的解碼速度高達每秒 253 個權杖。在 AMD Ryzen AI Max+ 395 處理器上，同樣能達到每秒 146 個權杖的優異表現。令人驚訝的是，這整個過程佔用的記憶體皆不到 6 GB。就算是在 Qualcomm 的手機晶片上，也能維持約每秒 30 個權杖的實用速度。

生態系的支援度往往決定了一個新技術的普及率。官方發布第一天，這款模型就全面支援了多種主流推理框架。若想親自體驗，隨時可以前往 Hugging Face 下載官方提供的 GGUF 格式檔案。透過 llama.cpp 或是 Apple Silicon 專用的 MLX，立刻就能在本地端建立起強大的運行環境。如果企業端使用單張 NVIDIA H100 進行 GPU 部署，配合 vLLM 或 SGLang 框架，最高甚至能達到每秒 18.5K 輸出權杖的驚人吞吐量。

實戰火力展示：完全離線的 LocalCowork 桌面代理

總結來看，火力展示必須要貼近真實應用場景。官方開源的 LocalCowork 桌面代理完美證明了它強大的工具調用 (Tool calling) 能力。

在完全沒有雲端支援、沒有 API 金鑰，且資料絕不離開本機的情況下，它能在單一筆電上順暢運作。這個系統能夠流暢調度跨 13 個 MCP 伺服器的 67 種不同工具。每次工具分派的延遲皆遠低於一秒，展現出極致的隱私與可靠性。將強大算力壓縮進日常設備，讓離線作業不再是遙不可及的夢想。未來的手機與輕薄筆電，都將標配這樣一個兼具高智商與絕對隱私保護的專屬數位助理。

問與答 (Q&A)

Q1：什麼是 LFM2.5-8B-A1B？它與一般的大型語言模型有何不同？ A1： LFM2.5-8B-A1B 是 Liquid AI 推出的端側 (Edge) 混合專家模型 (MoE)，專為消費級硬體上的快速、可靠工具呼叫而設計。它最大的特色是硬體需求極低，能在一般筆記型電腦或手機上完全離線運行，將強大的 AI 運算壓縮進日常設備中，並保障使用者的資料隱私。

Q2：這個新版本在處理長篇文章與多國語言上有什麼突破？ A2： 相較於上一代，它的上下文視窗從 32K 大幅擴展到了 128K，能輕鬆處理極長的文件。此外，詞彙表 (Vocabulary) 大小也直接翻倍至 128K，這顯著提升了印地語、泰語、越南語及阿拉伯語等非拉丁語系的處理效率。

Q3：小型端側模型經常會有「幻覺」的問題，這款模型如何克服？ A3： 團隊為它導入了特殊的「僅推理 (Reasoning-only)」設計，在給出最終答案前會強制產生明確的思維鏈。更重要的是，它加入了一套基於 avg@k 獎勵的強化學習機制，教會模型遇到知識盲區時要「主動放棄回答 (abstention)」，藉此劃出清晰的知識邊界並大幅降低產生幻覺的機率。

Q4：它的硬體需求真的這麼低嗎？實際運行的速度如何？ A4： 它的執行效率非常驚人，運行時佔用的記憶體不到 6 GB。根據官方實測，在 Apple M5 Max 晶片上解碼速度高達每秒 253 個權杖，在 AMD Ryzen AI Max+ 395 上也達每秒 146 個權杖，甚至在一般手機晶片上也能維持約每秒 30 個權杖的流暢速度。

Q5：如果我們想在本地端部署，它支援哪些推理框架？ A5： 官方提供了極致的生態相容性，在發布首日就全面原生支援了 llama.cpp、MLX (針對 Apple Silicon 優化)、vLLM、SGLang 以及 ONNX 等主流推理框架。開發者可以直接前往 Hugging Face 下載無限制的開源權重，輕鬆建立本地端的強大應用。

分享至:

Featured Partners

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

Recommended for You

L …

tool

LongCat-2.0 技術解析：1.6 兆參數 MoE、百萬上下文、LSA 與 N-gram Embedding 全面解讀

LongCat-2.0 技術解析：1.6 兆參數 MoE、百萬上下文、LSA 與 N-gram Embedding 全面解讀 LongCat-2.0 是美團（Meituan）開源的 1.6 兆（1.6T）參數混合專家（MoE）大型語言模型，支援 100 萬（1M）上下文，並以超過 5 萬片中國 AI ASIC 晶片完成 35 兆 Token 預訓練。本篇完整解析 LongCat Sparse Attention（LSA）、N-gram Embedding、Agentic 工作流、SWE-bench 與 Terminal-Bench 表現，以及中國 AI 算力平台的大規模訓練實踐與技術創新。模型概覽與核心參數規範 LongCat-2.0 是由美團（Meituan）研發並開源的大規模混合專家（MoE）語言模型。作為 LongCat 系列的最新一代架構，該模型在繼承 LongCat-Flash 優點的基礎上，通過稀疏維度擴展與索引機制優化，顯著提升了模型在處理複雜邏輯與長上下文任務時的表徵效率。下表總結了 LongCat-2.0 的核心技術規範：規格項目技術指標總參數規模 1.6 萬億 (1.6 Trillion) 每 Token 激活參數約 480 億 (48 Billion) 預訓練 Token 總量超過 35 萬億 (35 Trillion) 支持最大上下文長度 100 萬 (1M Context) 訓練基礎設施：中國算力集群之穩定性分析 LongCat-2.0 的研發成功，驗證了在前沿模型訓練中採用中國算力平台的可行性與技術韌性。其訓練環境與穩定性指標如下：

Jul 13, 2026 Read →

M …

tool

Mistral AI Leanstral 1.5 深度解析：MoE 架構、Lean 4 形式驗證與部署指南

Mistral AI Leanstral 1.5 深度解析：MoE 架構、Lean 4 形式驗證與部署指南 Mistral AI 釋出開源模型 Leanstral 1.5！本文深度解構其 119B MoE 稀疏激活架構，剖析 miniF2F 滿分與 PutnamBench 等博士級數學推理表現，並提供 vLLM 本地部署與 AI Agent 整合指南。立即掌握任務關鍵型系統的形式驗證新利器！ 1. 前言：形式驗證的新紀元隨著 Mistral AI 釋出 Leanstral 1.5，開源社群在形式化證明（Formal Verification）與自動定理證明（ATP）領域正式進入了高產出的全新時代。作為 Mistral Small 4 家族的專業化分支，該模型並非通用型大語言模型（LLM），而是針對 Lean 4 證明助手與程式碼語義分析高度優化的「程式碼代理模型」（Code Agent Model）。開源社群的戰略價值：Leanstral 1.5 採用 Apache-2.0 授權，徹底打破了過去高品質數學推理能力被閉源模型（如 OpenAI o1 系列）壟斷的局面。對於追求軟體供應鏈安全與高可靠系統設計的開發者而言，這是一次重量級的技術釋放。 2. 模型架構深度解析：高效 MoE 與稀疏激活機制從系統架構師的角度來看，Leanstral 1.5 的核心優勢在於其精密的混合專家模型（MoE, Mixture of Experts）設計。透過極高的活躍參數稀疏性（Active Parameter Sparsity），它在保持強大推理能力的同時，顯著降低了推理過程中的計算負載與記憶體頻寬壓力。項目規格細節與架構參數總參數規模 (Total Parameters) 1190 億 (119B) 活躍參數規模 (Active Parameters) 每個 Token 僅激活約 65 億 (6.5B) 專家配置 (Expert Configuration) 總計 128 個專家，採 4-of-128 稀疏激活路徑上下文長度 (Context Length) 標準支援 256k tokens (架構設計上限) 建議最佳化設置官方建議 context ≤ 200k tokens 以維持最佳邏輯一致性輸入與輸出模式支援多模態輸入（文字與圖像），輸出為純文字這種 4-of-128 的配置讓模型在處理長序列推理時，能更精準地調用特定專業領域的專家節點，進而提升「邏輯收斂性」，大幅減少在複雜證明樹搜索中的發散問題。

Jul 13, 2026 Read →

N …

tool

NVIDIA Audex 多模態模型技術全解析：30B MoE 架構、百萬上下文與語音雙模態 AI 新紀元

NVIDIA Audex 技術專文：統一音訊與文字的強大雙模態智慧 1. 導論：從文字推理到音訊智慧的全面演進在人工智慧邁向全能多模態（Omni-modal）的進程中，技術架構師面臨的核心挑戰在於：如何在賦予大型語言模型（LLM）音訊感知與生成能力的同時，不損害其原有的邏輯推理深度？ NVIDIA 正式推出 Nemotron-Labs-Audex 系列模型（包含 30B-A3B 與 2B 版本），其開發的核心理念即為「統一音訊智慧且不退化文字智慧」（Unified Audio Intelligence Without Regressing on Text Intelligence）。這套模型不僅在音訊理解與語音生成任務中表現卓越，更完整保留了 Nemotron 系列在複雜邏輯推理、超長上下文處理及指令對齊方面的實力，為開發者提供了穩定且全能的雙模態解決方案。模型資源官方連結 Audex-30B-A3B: Hugging Face 頁面 Audex-2B: Hugging Face 頁面 2. 強大且全能的多模態能力 (Multimodal Capabilities) Audex 突破了過往專用型模型的限制，將多元的音訊處理任務整合於單一的 Transformer 架構中。該模型原生支援以下六大核心任務：語音理解與分析 (Audio Understanding)：辨識環境音、音樂特徵及語音脈絡。語音辨識 (Speech Recognition/ASR)：實現高精準度的音訊轉文字。語音翻譯 (Speech Translation/AST)：支援跨語言（xx -> en）的即時語音對文字翻譯。文字轉語音 (Text-to-Speech/TTS)：自然流暢的語音合成。音訊生成 (Audio Generation/TTA)：根據文本描述生成特定的環境音效或音樂。語音對語音生成 (Speech-to-Speech/S2S)：實現端到端的語音交互，跳過中間文本轉換以降低延遲。 3. 模型架構與參數規格深度解析 Audex 採用混合專家架構（MoE）與稠密架構並行的策略，以滿足不同運算資源場景的需求。其 30B 版本基於 Nemotron-Cascade-2-30B-A3B 文本模型構建，展現了極高的參數利用率。

Jul 13, 2026 Read →