tool

將強大 AI 裝進口袋!Liquid AI 端側模型 LFM2.5-8B-A1B 深度解析

May 29, 2026
Updated May 29
1 min read

【Edge AI 解析】Liquid AI LFM2.5-8B-A1B:讓筆電與手機輕鬆駕馭的混合專家模型

探討 Liquid AI 最新推出的端側模型 LFM2.5-8B-A1B 技術突破。從 128K 上下文擴展到特殊的僅推理設計,解析這款 MoE 模型如何在不依賴雲端算力的情況下,讓日常消費級硬體化身為強大且具備高度隱私的專屬超級助理。


曾經想過在一台效能普通的筆記型電腦上,流暢運行強大的混合專家模型 (MoE) 嗎?許多人可能覺得這需要極度昂貴的伺服器才能辦到。其實情況已經完全改觀。

過度依賴雲端運算帶來了隱私隱患與網路延遲,讓端側人工智慧 (Edge AI) 成為極為關鍵的發展方向。Liquid AI 於 2026 年 5 月 28 日正式推出 LFM2.5-8B-A1B,為消費級硬體帶來了全新的解答。這款專為一般筆電和手機設計的模型,主打完全離線的工具呼叫與指令遵循能力。社群裡甚至有人開玩笑說,這款模型就算是用「馬鈴薯」等級的老舊設備也能跑得動。這聽起來或許有些誇張,但它的硬體需求確實極低,真正實現了將強大 AI 裝進口袋的願景。

核心規格大躍進:128K 上下文與 38T 預訓練的威力

接下來看看這款模型的引擎蓋底下藏了什麼。相較於前一代版本,LFM2.5-8B-A1B 的核心規格有著跳躍性的成長。開發團隊將預訓練資料量從 12T 暴增至 38T 權杖 (tokens),經歷了極大規模的強化學習。

同時,它的上下文視窗也從原先的 32K 大幅擴展到了 128K。這代表著設備現在可以直接在本地端處理極長的文本或複雜的合約文件。老實說,處理長篇文件一向是小型模型的弱點。這款新模型卻輕鬆跨越了這個障礙。除此之外,為了提升多語系的處理效率,它的詞彙表 (Vocabulary) 大小直接翻倍至 128K。這項改動對於非拉丁語系的使用者極度友善。印地語、泰語、越南語以及阿拉伯語等語言的標記化 (Tokenization) 效率因此顯著提升。也就是說,它在處理這些語言時會更聰明,消耗的運算資源也更少。

特殊的「僅推理」設計與降幻覺機制

談到技術細節,這裡有個看似矛盾的設計。LFM2.5-8B-A1B 採用了「僅推理 (Reasoning-only)」策略。要求一個小型模型在給出答案前強制產生明確的思維鏈,聽起來似乎會拖慢運作速度。不過這裡需要稍微解釋一下。

因為它採用混合專家架構,每次啟動的活躍參數其實非常少。這使得產生思考權杖的運算成本變得極低。模型能在完全不犧牲速度的前提下,產出品質極高的回答。當然,端側模型先天就有一項劣勢,也就是知識容量有限,容易產生幻覺。為了克服這個難題,研發團隊加入了一套基於 avg@k 獎勵的強化學習階段。這套機制非常有意思,它教會了模型一件事:懂得「藏拙」。當遇到超出自身知識範圍的問題時,模型會主動放棄回答 (abstention),進而劃出清晰的知識邊界。這不僅提升了應答的可靠性,也大幅降低了胡言亂語的機率。

硬體執行效率驚人:日常筆電與手機輕鬆上手

理論聽起來很棒,那麼實際跑起來的數據如何?這正是最讓人眼睛一亮的地方。在 Apple M5 Max 晶片上,它的解碼速度高達每秒 253 個權杖。在 AMD Ryzen AI Max+ 395 處理器上,同樣能達到每秒 146 個權杖的優異表現。令人驚訝的是,這整個過程佔用的記憶體皆不到 6 GB。就算是在 Qualcomm 的手機晶片上,也能維持約每秒 30 個權杖的實用速度。

生態系的支援度往往決定了一個新技術的普及率。官方發布第一天,這款模型就全面支援了多種主流推理框架。若想親自體驗,隨時可以前往 Hugging Face 下載官方提供的 GGUF 格式檔案。透過 llama.cpp 或是 Apple Silicon 專用的 MLX,立刻就能在本地端建立起強大的運行環境。如果企業端使用單張 NVIDIA H100 進行 GPU 部署,配合 vLLM 或 SGLang 框架,最高甚至能達到每秒 18.5K 輸出權杖的驚人吞吐量。

實戰火力展示:完全離線的 LocalCowork 桌面代理

總結來看,火力展示必須要貼近真實應用場景。官方開源的 LocalCowork 桌面代理完美證明了它強大的工具調用 (Tool calling) 能力。

在完全沒有雲端支援、沒有 API 金鑰,且資料絕不離開本機的情況下,它能在單一筆電上順暢運作。這個系統能夠流暢調度跨 13 個 MCP 伺服器的 67 種不同工具。每次工具分派的延遲皆遠低於一秒,展現出極致的隱私與可靠性。將強大算力壓縮進日常設備,讓離線作業不再是遙不可及的夢想。未來的手機與輕薄筆電,都將標配這樣一個兼具高智商與絕對隱私保護的專屬數位助理。

問與答 (Q&A)

Q1:什麼是 LFM2.5-8B-A1B?它與一般的大型語言模型有何不同? A1: LFM2.5-8B-A1B 是 Liquid AI 推出的端側 (Edge) 混合專家模型 (MoE),專為消費級硬體上的快速、可靠工具呼叫而設計。它最大的特色是硬體需求極低,能在一般筆記型電腦或手機上完全離線運行,將強大的 AI 運算壓縮進日常設備中,並保障使用者的資料隱私。

Q2:這個新版本在處理長篇文章與多國語言上有什麼突破? A2: 相較於上一代,它的上下文視窗從 32K 大幅擴展到了 128K,能輕鬆處理極長的文件。此外,詞彙表 (Vocabulary) 大小也直接翻倍至 128K,這顯著提升了印地語、泰語、越南語及阿拉伯語等非拉丁語系的處理效率。

Q3:小型端側模型經常會有「幻覺」的問題,這款模型如何克服? A3: 團隊為它導入了特殊的「僅推理 (Reasoning-only)」設計,在給出最終答案前會強制產生明確的思維鏈。更重要的是,它加入了一套基於 avg@k 獎勵的強化學習機制,教會模型遇到知識盲區時要「主動放棄回答 (abstention)」,藉此劃出清晰的知識邊界並大幅降低產生幻覺的機率。

Q4:它的硬體需求真的這麼低嗎?實際運行的速度如何? A4: 它的執行效率非常驚人,運行時佔用的記憶體不到 6 GB。根據官方實測,在 Apple M5 Max 晶片上解碼速度高達每秒 253 個權杖,在 AMD Ryzen AI Max+ 395 上也達每秒 146 個權杖,甚至在一般手機晶片上也能維持約每秒 30 個權杖的流暢速度。

Q5:如果我們想在本地端部署,它支援哪些推理框架? A5: 官方提供了極致的生態相容性,在發布首日就全面原生支援了 llama.cpp、MLX (針對 Apple Silicon 優化)、vLLM、SGLang 以及 ONNX 等主流推理框架。開發者可以直接前往 Hugging Face 下載無限制的開源權重,輕鬆建立本地端的強大應用。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.