Liquid AI LFM2.5 強勢登場：重新定義端側 AI 效能，1B 參數模型的極致表現

Liquid AI 最新發布 LFM2.5 系列模型，以 1.2B 的輕量級參數帶來桌機級的效能。本文深入解析其在文字、視覺、日語及原生音訊處理上的突破，並探討這款針對端側裝置優化的開源模型如何改變開發者生態。

大家有沒有發現，最近 AI 界的風向似乎正在悄悄轉變？雖然超大型模型依然佔據頭條，但真正在開發者社群中引起騷動的，反而是那些「小而美」、能跑在自己設備上的模型。就在昨天，Liquid AI 拋出了一枚震撼彈：LFM2.5 系列。這不僅僅是一次版本更新，它向我們展示了當 10 億（1B）參數等級的模型經過精心調校後，竟然能爆發出如此驚人的潛力。

LFM2.5 的核心目標非常明確：讓強大的 AI 走出雲端機房，直接住進你的筆電、手機甚至汽車裡。Liquid AI 這次不僅將預訓練數據量從 10T 提升到了 28T Token，更引入了強化學習來打磨後訓練流程。結果如何？他們在各項基準測試中，正面擊敗了 Llama 3.2 1B 和 Qwen 3 1.7B 等強勁對手。

接下來，我們就來仔細拆解這次發布的重點，看看這個「小巨人」家族究竟藏著什麼黑科技。

LFM2.5 的核心架構：不只是堆砌數據

這裡有個關鍵點需要釐清。很多人認為提升模型能力就是單純地「餵更多書給它讀」。但 LFM2.5 的成功並非僅此而已。它是建立在 LFM2 設備優化混合架構（device-optimized hybrid architecture）之上的進化版。

Liquid AI 這次採取了更積極的策略，將預訓練的規模擴大了近三倍（達到 28T Token）。這意味著模型在「大腦」容量有限的情況下，吸收了更廣泛的知識密度。更重要的是，團隊在後訓練階段大量運用了強化學習。這就像是給模型請了一位嚴格的家教，針對邏輯推理和指令遵循能力進行了高強度的特訓。

對於開發者來說，這代表著你拿到手的不只是一個「會說話」的模型，而是一個懂得如何使用工具、能執行複雜指令的可靠代理（Agent）。而且，這些都是在開源權重（Open-weight）的前提下實現的。

滿足多元需求的五大模型變體

LFM2.5 並非單打獨鬥，而是一個針對不同場景量身打造的家族。Liquid AI 這次一口氣推出了五個針對特定用途優化的模型實例，讓開發者不再需要拿著鐵鎚找釘子。

1. 通用指令模型 (Instruct Model)

這是整個系列的明星產品。LFM2.5-1.2B-Instruct 是大多數開發者的首選。它經過了監督式微調（SFT）和多階段強化學習，開箱即用。無論是處理一般對話、數學問題，還是調用外部工具，它都展現出了超越同級對手的穩定性。這款模型非常適合用來打造本地端的 Copilot 或是個人助理，因為它反應夠快，且不需要聯網就能處理隱私數據。

2. 基礎模型 (Base Model)

對於那些喜歡自己動手改裝的技術愛好者或企業研發團隊，LFM2.5-1.2B-Base 提供了最純粹的畫布。這是一個預訓練的檢查點（Checkpoint），尚未經過指令微調。如果您需要訓練一個特定領域的助手（比如醫療、法律專用），或者是想嘗試新穎的後訓練方法，這個基礎模型就是最佳起點。它擁有強大的知識底蘊，等待您去引導它的輸出方向。

3. 日語優化模型 (Japanese Language Model)

語言的精髓往往在於文化與語境，而不僅僅是字面翻譯。LFM2.5-1.2B-JP 是專為日語環境打造的聊天模型。雖然原版模型已經支援日語，但這個專用版本在日語知識庫和指令遵循上達到了該尺寸模型的「最先進」（SOTA）水準。對於需要開發日本市場應用、且極度重視文化細微差別的開發者來說，這是一個不可多得的工具。

4. 視覺語言模型 (Vision-Language Model)

世界是視覺的，AI 自然也不能只懂文字。LFM2.5-VL-1.6B 是基於更新後的骨幹網路構建的。它最大的進步在於「多圖像理解」和「多語言視覺處理」。這意味著你可以丟給它幾張照片，用中文、法文或阿拉伯文問它問題，它都能準確理解並回答。在基準測試中，它在處理真實世界場景的能力上有了顯著提升，非常適合部署在需要「看懂」環境的邊緣設備上。

5. 原生音訊語言模型 (Audio-Language Model)

老實說，這是這次發布中最讓人興奮的部分。傳統的語音 AI 流程非常繁瑣：先把聲音轉成文字（ASR），丟給 LLM 思考，再把文字轉回聲音（TTS）。這中間不僅延遲高，語氣和情感也容易丟失。

LFM2.5-Audio-1.5B 採用了端到端的原生處理方式。它直接接受語音輸入，並直接輸出語音。這種架構消除了中間環節的資訊損耗，使得延遲大幅降低。根據官方數據，其核心的音訊解碼器（Detokenizer）比前一代快了 8 倍。這意味著在車載系統或物聯網設備上，AI 可以像真人一樣實現近乎即時的語音互動，而不需要等待雲端處理。

部署與生態系：讓 AI 真正落地

一個模型再強，如果很難部署，那也只是實驗室裡的玩具。Liquid AI 顯然深知這一點，因此在相容性上下足了功夫。LFM2.5 從發布第一天起就支援主流的推論框架。

llama.cpp： 這是 CPU 推論的黃金標準。透過 GGUF 格式，LFM2.5 可以流暢地運行在各種普通硬體上。
MLX： 對於蘋果（Apple）生態的開發者，這是個好消息。LFM2.5 針對 Apple Silicon 的統一記憶體架構進行了優化，MacBook 用戶可以享受到極致的推論速度。
ONNX： 提供了跨平台的硬體支援，從雲端到邊緣設備通吃。
合作夥伴優化： Liquid AI 與 AMD 及 Nexa AI 合作，確保模型能在 NPU（神經網路處理器）上高效運行。這對於需要在筆電或手機上長時間運行 AI 且不希望耗盡電池的用戶來說至關重要。

您可以直接在 Hugging Face 下載這些模型，或者透過 Liquid 的官方部落格了解更多技術細節。

效能實測：數字會說話

在基準測試中，LFM2.5 展現了越級打怪的實力。以 LFM2.5-1.2B-Instruct 為例，在 MMLU-Pro（知識）、IFEval（指令遵循）和 GPQA（科學問答）等測試中，分數均大幅領先 Llama 3.2 1B Instruct 和 Gemma 3 1B IT。

特別值得一提的是音訊模型的表現。在性別聲音生成的測試中，LFM2.5 能夠精準控制男聲與女聲的生成，且語音品質（STOI 和 UTMOS 指標）與原始錄音驚人地接近。這證明了在小參數模型上，依然可以實現高保真的多模態互動。

結論：端側 AI 的新篇章

LFM2.5 的出現，向我們證明了「大」不一定總是最好。透過優化的架構和高品質的訓練數據，1B 級別的模型完全有能力處理複雜的任務。對於開發者而言，這開啟了無限的想像空間：更隱私的個人助理、反應更快的智慧家居、以及真正聽得懂人話的車載系統。這不是為了取代雲端大模型，而是讓 AI 無所不在地滲透進我們的生活縫隙中。

常見問題解答 (FAQ)

Q1：LFM2.5 適合商業用途嗎？ 是的，LFM2.5 系列模型採用開源權重（Open-weight）發布。這意味著開發者可以下載、微調並將其部署在自己的應用程式中，而沒有嚴格的限制。對於希望在產品中集成私有化 AI 模型的企業來說，這是一個極具吸引力的選擇。

Q2：運行 LFM2.5 需要很強的硬體嗎？ 完全不需要。這正是 LFM2.5 的優勢所在。由於參數量僅為 1.2B 至 1.6B，它可以在大多數現代筆記型電腦、智慧型手機甚至樹莓派等 IoT 設備上流暢運行。配合 llama.cpp 或 ONNX Runtime，即使沒有高階 GPU，單靠 CPU 也能獲得不錯的推論速度。

Q3：LFM2.5 的音訊模型與傳統語音助手有何不同？ 傳統助手通常是「聽寫 -> 理解 -> 朗讀」的三段式流程，反應慢且機械化。LFM2.5-Audio 採用原生「語音對語音」架構，直接處理音訊訊號。這不僅讓反應速度快了數倍，還能保留語氣、情感等非語言訊息，讓對話感覺更像是在與真人交談，而非機器人。

Q4：我可以在哪裡下載這些模型？ 目前所有 LFM2.5 的變體模型都已上傳至 Hugging Face 平台。您可以搜尋「LiquidAI」找到相關的 Collection，或是直接透過 Liquid AI 官網的連結進行存取。除此之外，它們也支援透過 LEAP 平台進行部署。

分享至:

Featured Partners

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

Recommended for You

S …

tool

StepFun Step-Audio-R1.1 登場：超越 GPT-4o 與 Gemini 的語音推理新霸主

在語音 AI 的競賽場上，大家總是習慣盯著 OpenAI 或 Google 的最新動態，期待他們端出下一個震撼世界的產品。但就在最近，一個開源權重模型無聲無息地爬上了排行榜的頂端，讓許多科技巨頭感到汗顏。這款名為 Step-Audio-R1.1 的模型，由 StepFun（階躍星辰）開發，它不僅在語音推理能力上刷新了紀錄，更在即時互動的流暢度上展現了驚人的實力。如果您以為這只是另一個普通的語音模型，那可就大錯特錯了。它在 Artificial Analysis 的語音推理基準測試（Speech Reasoning benchmark）中，以 96.4% 的準確率拿下了冠軍寶座，直接將 Grok、Gemini 乃至 GPT-Realtime 甩在身後。這究竟是怎麼做到的？讓我們來拆解這項技術背後的秘密。語音推理的新高度：數據不會說謊讓我們先來看看最直觀的數據表現。根據 Artificial Analysis 的 Big Bench Audio 數據集測試結果，Step-Audio-R1.1 展現了壓倒性的優勢。在這份榜單上，排在第二名的 Grok Voice Agent 成績是 92.3%，而廣受關注的 GPT-4o Realtime Preview 則落在 66% 到 68% 之間。這意味著什麼？這代表在處理複雜的語音指令、理解語境以及進行邏輯推演時，Step-Audio-R1.1 的表現比目前市面上昂貴的商業模型還要精準。這並非單純的語音轉文字再處理，而是真正的「端到端」（End-to-End）語音原生推理。模型直接聽懂了聲音中的邏輯，而不是依賴文字轉錄的中介。對於開發者與研究人員來說，這是一個激動人心的消息，尤其是當您可以在 Hugging Face 下載 Step-Audio-R1.1 的權重，親自驗證這項技術時，這種震撼感會更加真實。速度與智慧的博弈：打破傳統權衡長期以來，AI 領域存在一個難以忽視的矛盾：想要模型更聰明，通常就得犧牲反應速度；想要反應快，往往就得犧牲推理的深度。但在即時語音對話中，延遲是使用者體驗的殺手。沒人喜歡對著一個還要思考五秒鐘才能回話的 AI 聊天，那種尷尬的沉默會毀掉所有的沉浸感。 Step-Audio-R1.1 透過一種被稱為「思維配速說話」（Mind-Paced Speaking）的技術，巧妙地解決了這個難題。您可以把它想像成一位經驗豐富的演講者，他們不需要停下來長時間思考，而是能夠邊說邊想，組織語言的同時也在進行深層邏輯推演。這得益於其獨特的雙腦架構（Dual-Brain Architecture）：構思大腦（Formulation Brain）：負責高層次的邏輯推理與內容規劃。表達大腦（Articulation Brain）：專注於語音生成的流暢度與自然度。這種分工合作的機制，讓模型能夠在輸出的同時進行「思維鏈」（Chain-of-Thought）推理。結果就是，它既能保持極低的延遲，又能處理複雜的任務，完全不需要在速度與智慧之間做取捨。想體驗這種流暢感的朋友，可以前往 ModelScope 的 Demo 頁面試試看。

Jan 16, 2026 Read →

G …

tool

GLM-4.7 重磅登場：用「Vibe Coding」拯救工程師審美，以 1/7 價格挑戰頂級模型

2025 年底的 AI 模型競賽，風向似乎變了。過去大家都在拚參數、拚算力，但智譜 Z.ai 最新發布的 GLM-4.7 卻選了一條特別的路：它不只讓 AI 寫程式更強，還讓 AI 開始懂「設計感」。這款被官方定義為「新一代編程夥伴」的模型，不僅在邏輯推理上大幅躍進，更解決了許多全端工程師長久以來的痛點－－後端邏輯滿分，前端介面卻慘不忍睹。 GLM-4.7 帶著三大殺手鐧來了：Vibe Coding（審美編程）、Preserved Thinking（思維保留），以及讓個人開發者和中小團隊難以抗拒的極致性價比。什麼是 Vibe Coding？終於有個懂 UI 的 AI 了老實說，很多工程師都遇過這種狀況：你讓 AI 寫一個網頁功能，程式碼跑得動，邏輯也沒錯，但那個按鈕的顏色、字體的間距，還有整體的排版，看起來就像是十年前的產物。這就是 GLM-4.7 想要解決的核心問題。 GLM-4.7 在 UI/UX 的感知能力上取得了重大突破。根據官方技術報告，這所謂的「Vibe Coding」意味著模型能夠生成更乾淨、更現代化的網頁程式碼，甚至在製作 Slide 簡報時，對於佈局（Layout）和尺寸（Sizing）的精準度都有了肉眼可見的提升。在實際測試中，無論是要求「高對比度的暗色模式」還是「像素風格的塔樓設計」，GLM-4.7 產出的結果都帶有強烈的視覺衝擊力。這對於獨立開發者來說是一大福音，你不再需要花費大把時間去手調 CSS 的 margin 和 padding，模型生成的結果往往已經是可以直接拿給客戶看的 Demo 等級。這不單是程式碼的準確度問題，而是一種對「美感」的理解。告別「金魚腦」：為 Agent 而生的思維進化除了解決審美問題，GLM-4.7 在處理複雜任務時的穩定性也令人印象深刻。對於習慣使用 Claude Code、Cline 或 Roo Code 這類 AI 寫程式工具的開發者來說，最怕的就是 AI 在多輪對話後「忘記」之前的推理邏輯，導致後面的修改把前面的功能改壞了。 GLM-4.7 引入了兩項針對性的技術來解決這個「斷片」問題： 1. Preserved Thinking（思維保留）這是一個專為 Coding Agent 場景設計的功能。當你在進行多輪對話的複雜任務時（例如重構整個專案模組），GLM-4.7 會自動保留跨回合的思考區塊。這意味著它不需要每次都從零開始重新推導上下文，而是能夠「記住」之前的推理路徑。這大大減少了資訊流失，讓 AI 在處理長流程任務時，表現得更像一個思路連貫的資深工程師。

Dec 23, 2025 Read →

小 …

tool

小米 MiMo-V2-Flash 強勢來襲：以 150 億參數的運算成本，駕馭 3090 億參數的頂級智慧

在這個 AI 模型層出不窮的時刻，開發者和企業往往面臨一個兩難的抉擇：是要追求參數巨大的模型以獲得更高的「智商」，還是妥協於運算成本，選擇反應較快的小模型？通常這兩者很難兼得。不過，小米最近推出的 MiMo-V2-Flash 似乎找到了一個巧妙的平衡點。這款模型雖然擁有名義上高達 3090 億（309B）的總參數，但在實際運作時，它卻像是一個精打細算的管家，每次僅調用 150 億（15B）的活躍參數。這意味著什麼？簡單來說，你擁有一個超大型圖書館的知識儲備，但每次檢索時，只需花費翻閱幾本書的時間。這篇文章將帶大家一探究竟，看看小米是如何透過混合專家（MoE）架構、創新的注意力機制以及多 Token 預測技術，來挑戰開源模型的效率極限。打破「大即是慢」的迷思：MoE 架構的魔法許多人聽到「3090 億參數」時，第一反應可能是：「這跑得動嗎？」老實說，如果是傳統的稠密（Dense）模型，這確實需要天文數字般的算力。但 MiMo-V2-Flash 採用的是混合專家（Mixture-of-Experts, MoE）架構。你可以把它想像成一個由多個領域專家組成的顧問團。當你問一個關於程式設計的問題時，系統只會叫醒懂程式碼的那幾位專家來回答，其他懂文學或歷史的專家則繼續休息。這種「稀疏激活」的特性，讓 MiMo-V2-Flash 能夠在保持頂級模型理解能力的同時，將推論成本壓低到中型模型的水平。對於那些想要私有化部署、但又不想被硬體成本壓垮的企業來說，這無疑是一個極具吸引力的選擇。如果你對具體的技術細節感興趣，可以參考小米發布的技術報告，裡面有關於架構的詳盡說明。記憶體救星：獨特的混合注意力機制處理長文本一直是大型語言模型的軟肋。隨著輸入的文字越來越多，模型需要「記住」的資訊量（KV Cache）會呈指數級增長，這往往會撐爆顯示卡的記憶體。為了解決這個痛點，MiMo-V2-Flash 引入了一種混合注意力架構 (Hybrid Attention Architecture)。這可不是普通的注意力機制。小米的工程師巧妙地設計了一個 5:1 的比例：滑動視窗注意力 (Sliding Window Attention, SWA)：負責處理大部分的層級，它只關注局部的上下文，就像我們閱讀時只盯著當前的段落看。全域注意力 (Global Attention, GA)：每隔幾層出現一次，負責統整全局資訊，確保模型不會「見樹不見林」。這樣的設計帶來了什麼好處？根據官方數據，它讓 KV Cache 的記憶體需求降低了 5.6 倍。即使是在處理長達 256k token 的超長文本時，模型依然能保持流暢，而且準確度不會因為「失憶」而下降。這對於需要分析大量法律文件或財報的使用者來說，絕對是一大福音。速度的秘密武器：多 Token 預測 (MTP) 除了省記憶體，速度也是 MiMo-V2-Flash 的一大亮點。這裡就不得不提一個叫做多 Token 預測 (Multi-Token Prediction, MTP) 的黑科技。

Dec 17, 2025 Read →