AI 不再依賴雲端？Liquid AI 推出 LFM2-VL，讓你的手機也能看懂世界

厭倦了需要時刻連網的 AI 嗎？Liquid AI 推出的全新視覺語言模型 LFM2-VL，專為手機、穿戴裝置等邊緣設備設計。它不僅速度快、效率高，還能保持頂尖的準確度，徹底改變我們對設備端 AI 的想像。

你有沒有想過，如果你的手機相機不只能拍照，還能即時理解你眼前所見的一切，並與你對話？這聽起來像是科幻電影的情節，但長期以來，強大的 AI 模型都因體積龐大而只能存在於雲端伺服器中，讓這個夢想顯得有些遙遠。

但現在，情況可能要改變了。

人工智慧公司 Liquid AI 最近投下了一顆震撼彈，正式推出 LFM2-VL——一個專為「設備端」部署而生的全新視覺語言基礎模型系列。這系列包含 LFM2-VL-450M 和 LFM2-VL-1.6B 兩個版本，它們的目標非常明確：讓強大的多模態 AI 能直接在你的智慧型手機、筆記型電腦、甚至智慧手錶上高效運行，而且速度和準確度一點都不馬虎。

速度與智慧的完美結合？LFM2-VL 的核心優勢

過去，我們總要在 AI 的「速度」與「智慧」之間做出取捨。模型越聰明，通常就越龐大、越慢。但 LFM2-VL 似乎找到了那個完美的平衡點。

根據 Liquid AI 的說法，LFM2-VL 的 GPU 推理速度是現有同類模型的兩倍。這意味著什麼？這意味著 AI 應用程式的反應會更即時、延遲更低，無論是進行圖像描述、視覺問答還是複雜的多模態推理，都能有更流暢的體驗。

為了滿足不同設備的需求，LFM2-VL 提供了兩種選擇：

LFM2-VL-450M： 擁有 4.5 億個參數，專為資源極度有限的環境設計，例如穿戴式裝置或入門級的嵌入式系統。
LFM2-VL-1.6B： 擁有 16 億個參數，在保持輕量級的同時，提供了更強大的性能，非常適合在高階智慧型手機或配備單一 GPU 的設備上運行。

這就像擁有一台輕便的筆記型電腦和一台高效能的工作站，你可以根據任務需求自由選擇。

拆解幕後黑科技：「像素解混」與原生解析度

所以，LFM2-VL 是如何做到既快又強的？答案就在其創新的模組化架構和聰明的影像處理技術。

簡單來說，這個模型由三個核心部分組成：一個語言模型主幹（負責理解與生成文字）、一個視覺編碼器（負責「看懂」圖片），以及一個多模態投影器（負責將兩者串連起來）。

其中最關鍵的技術，是一種稱為**「像素解混 (pixel un-shuffling)」**的技巧。你可以把它想像成一種智慧壓縮。在處理圖片時，模型並非逐一分析每個像素，而是動態地減少需要處理的影像資訊數量，只保留最關鍵的特徵。這讓它在不犧牲太多細節的情況下，大幅提升了影像處理速度。

此外，LFM2-VL 還能以高達 512x512 像素的原生解析度處理影像，避免了傳統模型放大圖片時可能造成的失真。如果遇到更大的圖片，它會聰明地將其分割成多個 512x512 的區塊分別處理，確保了細節和長寬比的完整性。更有趣的是，1.6B 的版本還會額外為全圖生成一個縮圖，用來理解整張圖片的「全域脈絡」，既能看見樹木，也能看見森林。

實際表現如何？跑分數據見真章

當然，光說不練假把戲。LFM2-VL 的實際表現究竟如何？讓我們直接看看數據。

Model	RealWorldQA	MM-IFEval	OCRBench	MME
LFM2-VL-1.6B	65.23	37.66	742	1753.04
LFM2-VL-450M	52.29	26.18	655	1239.06
InternVL3-2B	65.10	38.49*	831	2186.40
SmolVLM2-2.2B	57.50	19.42*	725	1792.50

從上方的基準測試結果（Table 1）中，我們可以清楚看到，LFM2-VL-1.6B 在多項評測中，其表現都與體積更大的 InternVL3-2B 或 SmolVLM2-2.2B 不相上下，甚至在某些項目中更為出色。

舉例來說，在真實世界問答（RealWorldQA）測試中，LFM2-VL-1.6B 的分數（65.23）略高於 InternVL3-2B（65.10）。雖然在光學字元辨識（OCRBench）等項目上分數稍低，但考量到它更小的記憶體佔用和更快的處理速度，這樣的性能表現無疑是非常驚人的。這證明了 LFM2-VL 確實達成了在效率和性能之間的絕佳平衡。

開放與彈性：開發者的全新利器

對於開發者和企業來說，最強大的工具也需要易於取得和使用。Liquid AI 深知這一點。

LFM2-VL 的兩種模型均採用開放權重 (open-weights) 的方式，並已在知名的 AI 社群平台 Hugging Face 上開放下載，可供研究和商業使用（大型企業需另行聯繫 Liquid AI 取得授權）。

這代表著：

無縫整合： 開發者可以輕鬆地將模型與 Hugging Face Transformers 函式庫結合，快速應用到自己的專案中。
進一步優化： 模型支援量化技術，可以將其體積進一步壓縮，提升在邊緣硬體上的運行效率。
彈性調整： 使用者可以在推理時，根據設備能力和應用需求，動態調整速度和品質的平衡。

未來的應用場景：當 AI 真正走出雲端

LFM2-VL 的出現，不僅僅是一款新模型的發布，它更為我們描繪了一個 AI 應用遍地開花的未來藍圖。當強大的 AI 不再依賴雲端，許多過去難以實現的應用都將成為可能：

智慧機器人： 工廠裡的機器人可以即時識別產品瑕疵，無需等待網路訊號。
物聯網 (IoT) 裝置： 家中的智慧攝影機能夠在本地端辨識異常情況並即時發出警報，保護用戶隱私。
行動助理： 手機助理可以直接「看見」你鏡頭前的物品並提供相關資訊，成為你真正的隨身百科。

這一切都指向一個核心趨勢：減少對雲端的依賴，將帶來更快、更可靠、也更注重隱私的 AI 體驗。

總而言之，Liquid AI 的 LFM2-VL 是推動多模態 AI 走向普及化的重要一步。它證明了我們不必為了追求極致性能而犧牲效率，也為無數開發者和創新者打開了一扇通往全新應用世界的大門。

常見問題解答 (FAQ)

Q1：LFM2-VL 和其他大型視覺語言模型（如 GPT-4V）有什麼不同？

最大的不同在於設計理念。像 GPT-4V 這樣的大型模型主要在雲端運行，目標是追求最強大的綜合能力。而 LFM2-VL 的核心目標是效率和低延遲，專為在資源有限的設備上（如手機）本地運行而優化，是為了解決「邊緣運算」場景而生的模型。

Q2：我可以在我的專案中免費使用 LFM2-VL 嗎？

是的，LFM2-VL 採用開放權重授權，對於學術研究和大多數商業用途是免費的。不過，根據官方說明，大型企業若要進行商業部署，則需要另外聯繫 Liquid AI 取得商業授權。建議在使用前，先到 Hugging Face 頁面詳細閱讀其授權條款。

Q3：我該如何選擇 LFM2-VL-450M 和 LFM2-VL-1.6B 兩個版本？

這取決於您的硬體限制和性能需求。如果您的目標是智慧手錶、低功耗 IoT 設備等運算資源非常有限的平台，450M 版本會是更合適的選擇。如果您在高階智慧型手機、筆記型電腦或有獨立 GPU 的設備上開發，1.6B 版本將提供更強大的理解和推理能力。

分享至:

Featured Partners

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

Recommended for You

G …

tool

GLM-4.6V 登場：視覺感知與執行動作的無縫整合

GLM-4.6V 系列模型正式亮相，帶來 106B 與 9B 兩個版本，分別針對雲端高效能與本地低延遲場景。本文將解析其原生 Function Calling 能力如何打通「看」與「做」的界線，並深入探討其長文檔理解、前端代碼生成以及混合圖文創作的實際應用。同時附上詳細評測數據與部署資源。視覺模型的新里程碑：不僅僅是「看懂」人工智能領域的發展總讓人目不暇給。才剛習慣語言模型能說會道，多模態模型（Multimodal AI）又把標準拉高了一個檔次。這次 GLM-4.6V 的發布，帶來了一個相當有趣的訊號：模型不再滿足於「看圖說話」，它們開始嘗試「看圖辦事」。 GLM-4.6V 系列推出了兩個版本。一個是針對雲端和高效能運算集群設計的基礎模型 GLM-4.6V (106B)，另一個則是為了本地部署和低延遲應用優化的輕量級模型 GLM-4.6V-Flash (9B)。這兩款模型在訓練時都將上下文窗口擴展到了 128k token，這意味著它們能一次處理的資訊量相當驚人。這不僅僅是參數量的堆疊。這次更新最核心的突破在於「原生 Function Calling（函數調用）」的整合。這聽起來可能有點技術化，但簡單來說，這就是讓 AI 從一個只會評論的觀察者，變成了一個能動手解決問題的執行者。打通感知與行動：原生視覺驅動的工具使用以往的多模態模型在處理任務時，通常需要先把看到的圖片轉成文字描述，再根據文字去調用工具。這中間的轉換往往會丟失細節，甚至產生誤解。 GLM-4.6V 採取了不同的路徑。它引入了 Native Multimodal Function Calling。這意味著，圖片、螢幕截圖或是文檔頁面，可以直接作為工具的輸入參數，不需要經過文字轉換這道手續。想像一下，當你把一張複雜的報表截圖丟給模型，它不需要先「翻譯」成文字，而是直接「看著」圖片去調用搜尋工具或計算工具，最後輸出的結果（不管是圖表還是渲染後的頁面）也能直接整合進推理鏈中。這真正實現了從「視覺感知」到「理解」，再到「執行」的閉環。對於開發者來說，這為構建能夠處理真實商業場景的 AI Agent（代理人）提供了更統一的技術地基。混合圖文創作：像人類一樣組織內容內容創作者可能會對 Interleaved Image-Text Content Generation（交錯圖文內容生成）這個功能特別感興趣。過去我們讓 AI 寫文章配圖，通常是分開進行的：先寫字，再找圖。但 GLM-4.6V 能夠處理包含文檔、用戶輸入和工具檢索圖片在內的多模態語境。它在生成內容的過程中，會主動調用搜尋和檢索工具，收集並篩選額外的文字和視覺素材。最終生成的結果，是根據任務量身定做的、圖文並茂的連貫內容。這就像是一位經驗豐富的編輯，懂得在文字的關鍵處插入佐證的圖片，而不是生硬地拼湊素材。長文檔與複雜圖表的剋星在處理商業文件時，最讓人頭痛的往往是那些格式複雜的 PDF 或掃描件。GLM-4.6V 具備 Multimodal Document Understanding 能力，可以處理高達 128K token 的多文檔或長文檔輸入。這有個很大的優勢：它把格式豐富的頁面直接當作圖片來理解。也就是說，它能同時讀懂文字、排版、圖表、表格和圖片。這避免了傳統 OCR（光學字元識別）技術先把所有東西轉成純文字時，丟失排版結構或表格錯位的問題。對於需要分析大量財報或技術手冊的專業人士來說，這能節省大量的校對時間。前端工程師的 AI 助手：從截圖到代碼對於網頁開發者而言，Frontend Replication & Visual Editing 是一個非常實用的功能。

Dec 9, 2025 Read →

B …

tool

ByteDance Vidi2 登場：精準掌控影片理解與生成的多模態模型

ByteDance Vidi2 震撼登場！深入了解字節跳動如何透過這款大型多模態模型，實現對長影片的精準理解與生成。Vidi2 不僅能精確定位影片中「穿棕色西裝的男人打鼓」等特定事件，更在基準測試中超越 Gemini 3 Pro 與 GPT-5 (Preview)。探索 Vidi2 核心技術，預見影片剪輯的未來！這是一個內容創作者與開發者都會深感共鳴的場景：你手邊有一段長達三十分鐘的影片，卻為了尋找某個特定畫面——比如「穿著棕色西裝的男人在室內打鼓」——而在時間軸上來回拖曳，耗費大量時間。這種大海撈針的過程，往往讓人感到枯燥且效率低落。 ByteDance（字節跳動）的智慧創作團隊（Intelligent Creation Team）近期發布了 Vidi2，這是一款針對影片理解與生成所設計的大型多模態模型（Large Multimodal Models）。Vidi2 不僅僅是「看過」影片，它還能理解影片中發生的細節，並精確指出事件發生的時間與位置。根據官方發布的報告，這款模型在特定的基準測試上，表現甚至超越了 Gemini 3 Pro (Preview) 與 GPT-5 等知名模型。這篇文章將帶領讀者一探 Vidi2 的核心技術、全新的評測基準，以及它如何改變影片剪輯的未來。什麼是 Vidi2？從單純觀看到精準定位 Vidi2 是 ByteDance 推出的第二代多模態模型，專注於解決影片處理中的兩大難題：影片理解（Video Understanding）與影片生成（Video Creation）。與一般的視覺模型不同，Vidi2 具備一種稱為「細粒度時空定位」（Fine-grained Spatio-Temporal Grounding, STG）的能力。這聽起來可能有點技術性，但原理其實很直觀。當你輸入一段文字描述時，Vidi2 能做兩件事：時間定位：找出這段描述在影片中出現的確切時間段（Timestamps）。空間定位：在該時間段的每一幀畫面中，用邊框（Bounding Boxes）精確標示出目標物件。這意味著模型不僅知道「發生了什麼」，還知道「在哪裡」以及「在畫面中的哪個位置」發生。這種端到端的能力，讓複雜的編輯場景變得簡單許多，例如自動切換視角、理解劇情走向，或是根據畫面構圖進行智慧裁切。為什麼這很重要？對於影片編輯軟體而言，能夠理解畫面內容是自動化的基礎。Vidi2 展示的應用場景包括「Smart Split」（智慧拆分），它可以自動將長影片剪輯成精彩短片，重新構圖以適應手機直式螢幕，甚至自動生成標題與字幕。這對於需要大量處理素材的創作者來說，無疑是一大福音。重新定義標準：VUE-STG 與 VUE-TR-V2 基準測試為了證明 Vidi2 的實力，研究團隊發現現有的測試標準並不足以完全衡量模型的能耐。因此，他們引入了兩個全新的基準測試（Benchmark），這也是本次發布的一大亮點。 VUE-STG：挑戰長影片的時空定位現有的數據集通常影片較短，難以測試模型對長內容的理解能力。VUE-STG 針對這點進行了四項關鍵改進：影片長度跨度大：涵蓋從 10 秒到 30 分鐘不等的影片，這要求模型具備長文本和長時間跨度的推理能力。查詢格式優化：將查詢轉換為名詞片語，同時保留句子的表達力，更貼近人類自然的搜尋習慣。高品質標註：所有的時間範圍和物件邊框均經過人工精確標註，確保測試結果的準確性。更嚴謹的評估指標：採用改進的 vIoU 和 tIoU 機制，針對多片段的時空評估進行優化。 VUE-TR-V2：升級版的時間檢索除了空間定位，團隊也升級了之前的時間檢索基準，推出了 VUE-TR-V2。這個新版本平衡了影片長度的分佈，並引入了更多「用戶風格」的查詢語句。這意味著測試情境更接近真實世界中人們搜尋影片的方式，而不僅僅是實驗室裡的理想狀況。

Dec 2, 2025 Read →

A …

tool

Apple 罕見出招！開源 AI 模型 FastVLM，但開發者先別高興得太早

Apple 最近在 Hugging Face 平台上悄悄發布了幾個月前發布的的視覺語言模型 FastVLM。這一舉動震驚了整個 AI 社群，畢竟 Apple 一向以其封閉的生態系統聞名。然而，這次的「開源」附帶了嚴格的條件——僅限於學術研究。這究竟是 Apple 擁抱開放文化的一小步，還是另有盤算？過去，當我們談到 Apple，腦中浮現的總是「封閉花園」、「生態壁壘」這些詞。他們家的硬體和軟體總是緊密結合，自成一格。但最近，這個科技巨頭似乎開始鬆動了。 Apple 在知名 AI 開發者社群 Hugging Face 上，發布了一系列機器學習模型，其中最引人注目的就是 FastVLM 和 MobileCLIP2。這對研究人員來說無疑是個好消息，但對於想將這些模型應用於商業產品的開發者來說，可能就要失望了。這款叫 FastVLM 的模型，到底強在哪？我們先來聊聊主角 FastVLM。它是一款「視覺語言模型」（Vision-Language Model, VLM），簡單來說，就是能同時理解圖片和文字的 AI。你可以給它一張圖，然後用文字問它問題，它能像人一樣看懂圖並回答你。聽起來很酷，對吧？ FastVLM 的厲害之處在於它的效率。從名字中的「Fast」就能猜到，它的反應速度和處理效率都經過了優化。Apple 這次還很貼心地提供了不同大小的版本，從輕巧的 0.5B（5 億參數）到強大的 7.76B 版本（官方稱其為 7B，但我們都知道實際更大一些，這在業界也算常見）。 FastVLM-0.5B: https://huggingface.co/apple/FastVLM-0.5B FastVLM-1.5B: https://huggingface.co/apple/FastVLM-1.5B 完整的模型集： https://huggingface.co/collections/apple/fastvlm-68ac97b9cd5cacefdd04872e 不只如此，Apple 還提供了一個線上示範，讓你可以親身體驗 FastVLM 的威力，甚至連原始碼都一併附上，誠意滿滿。線上示範與原始碼： https://huggingface.co/spaces/apple/fastvlm-webgpu 那 MobileCLIP2 又是什麼？與 FastVLM 一同亮相的還有 MobileCLIP2。CLIP 類型的模型專門用來建立文字和圖像之間的連結。你可以把它想像成一個「翻譯官」，能告訴 AI 「貓」這個詞和一張貓的照片是相關的。而「Mobile」這個詞則暗示了它的設計初衷——為行動裝置而生。這意味著 MobileCLIP2 在效能和功耗上都進行了特別優化，非常適合在 iPhone 或 iPad 這類裝置上運行。 MobileCLIP2 模型集： https://huggingface.co/collections/apple/mobileclip2-68ac947dcb035c54bcd20c47 開源的背後：那條「僅限研究」的紅線看到這裡，你可能會想：「太棒了！我可以用 Apple 的模型來開發新的 App 了！」

Aug 30, 2025 Read →