厭倦了需要時刻連網的 AI 嗎?Liquid AI 推出的全新視覺語言模型 LFM2-VL,專為手機、穿戴裝置等邊緣設備設計。它不僅速度快、效率高,還能保持頂尖的準確度,徹底改變我們對設備端 AI 的想像。
你有沒有想過,如果你的手機相機不只能拍照,還能即時理解你眼前所見的一切,並與你對話?這聽起來像是科幻電影的情節,但長期以來,強大的 AI 模型都因體積龐大而只能存在於雲端伺服器中,讓這個夢想顯得有些遙遠。
但現在,情況可能要改變了。
人工智慧公司 Liquid AI 最近投下了一顆震撼彈,正式推出 LFM2-VL——一個專為「設備端」部署而生的全新視覺語言基礎模型系列。這系列包含 LFM2-VL-450M 和 LFM2-VL-1.6B 兩個版本,它們的目標非常明確:讓強大的多模態 AI 能直接在你的智慧型手機、筆記型電腦、甚至智慧手錶上高效運行,而且速度和準確度一點都不馬虎。
速度與智慧的完美結合?LFM2-VL 的核心優勢
過去,我們總要在 AI 的「速度」與「智慧」之間做出取捨。模型越聰明,通常就越龐大、越慢。但 LFM2-VL 似乎找到了那個完美的平衡點。
根據 Liquid AI 的說法,LFM2-VL 的 GPU 推理速度是現有同類模型的兩倍。這意味著什麼?這意味著 AI 應用程式的反應會更即時、延遲更低,無論是進行圖像描述、視覺問答還是複雜的多模態推理,都能有更流暢的體驗。
為了滿足不同設備的需求,LFM2-VL 提供了兩種選擇:
- LFM2-VL-450M: 擁有 4.5 億個參數,專為資源極度有限的環境設計,例如穿戴式裝置或入門級的嵌入式系統。
- LFM2-VL-1.6B: 擁有 16 億個參數,在保持輕量級的同時,提供了更強大的性能,非常適合在高階智慧型手機或配備單一 GPU 的設備上運行。
這就像擁有一台輕便的筆記型電腦和一台高效能的工作站,你可以根據任務需求自由選擇。
拆解幕後黑科技:「像素解混」與原生解析度
所以,LFM2-VL 是如何做到既快又強的?答案就在其創新的模組化架構和聰明的影像處理技術。
簡單來說,這個模型由三個核心部分組成:一個語言模型主幹(負責理解與生成文字)、一個視覺編碼器(負責「看懂」圖片),以及一個多模態投影器(負責將兩者串連起來)。
其中最關鍵的技術,是一種稱為**「像素解混 (pixel un-shuffling)」**的技巧。你可以把它想像成一種智慧壓縮。在處理圖片時,模型並非逐一分析每個像素,而是動態地減少需要處理的影像資訊數量,只保留最關鍵的特徵。這讓它在不犧牲太多細節的情況下,大幅提升了影像處理速度。
此外,LFM2-VL 還能以高達 512x512 像素的原生解析度處理影像,避免了傳統模型放大圖片時可能造成的失真。如果遇到更大的圖片,它會聰明地將其分割成多個 512x512 的區塊分別處理,確保了細節和長寬比的完整性。更有趣的是,1.6B 的版本還會額外為全圖生成一個縮圖,用來理解整張圖片的「全域脈絡」,既能看見樹木,也能看見森林。
實際表現如何?跑分數據見真章
當然,光說不練假把戲。LFM2-VL 的實際表現究竟如何?讓我們直接看看數據。
| Model | RealWorldQA | MM-IFEval | OCRBench | MME |
|---|---|---|---|---|
| LFM2-VL-1.6B | 65.23 | 37.66 | 742 | 1753.04 |
| LFM2-VL-450M | 52.29 | 26.18 | 655 | 1239.06 |
| InternVL3-2B | 65.10 | 38.49* | 831 | 2186.40 |
| SmolVLM2-2.2B | 57.50 | 19.42* | 725 | 1792.50 |
從上方的基準測試結果(Table 1)中,我們可以清楚看到,LFM2-VL-1.6B 在多項評測中,其表現都與體積更大的 InternVL3-2B 或 SmolVLM2-2.2B 不相上下,甚至在某些項目中更為出色。
舉例來說,在真實世界問答(RealWorldQA)測試中,LFM2-VL-1.6B 的分數(65.23)略高於 InternVL3-2B(65.10)。雖然在光學字元辨識(OCRBench)等項目上分數稍低,但考量到它更小的記憶體佔用和更快的處理速度,這樣的性能表現無疑是非常驚人的。這證明了 LFM2-VL 確實達成了在效率和性能之間的絕佳平衡。
開放與彈性:開發者的全新利器
對於開發者和企業來說,最強大的工具也需要易於取得和使用。Liquid AI 深知這一點。
LFM2-VL 的兩種模型均採用開放權重 (open-weights) 的方式,並已在知名的 AI 社群平台 Hugging Face 上開放下載,可供研究和商業使用(大型企業需另行聯繫 Liquid AI 取得授權)。
這代表著:
- 無縫整合: 開發者可以輕鬆地將模型與 Hugging Face Transformers 函式庫結合,快速應用到自己的專案中。
- 進一步優化: 模型支援量化技術,可以將其體積進一步壓縮,提升在邊緣硬體上的運行效率。
- 彈性調整: 使用者可以在推理時,根據設備能力和應用需求,動態調整速度和品質的平衡。
未來的應用場景:當 AI 真正走出雲端
LFM2-VL 的出現,不僅僅是一款新模型的發布,它更為我們描繪了一個 AI 應用遍地開花的未來藍圖。當強大的 AI 不再依賴雲端,許多過去難以實現的應用都將成為可能:
- 智慧機器人: 工廠裡的機器人可以即時識別產品瑕疵,無需等待網路訊號。
- 物聯網 (IoT) 裝置: 家中的智慧攝影機能夠在本地端辨識異常情況並即時發出警報,保護用戶隱私。
- 行動助理: 手機助理可以直接「看見」你鏡頭前的物品並提供相關資訊,成為你真正的隨身百科。
這一切都指向一個核心趨勢:減少對雲端的依賴,將帶來更快、更可靠、也更注重隱私的 AI 體驗。
總而言之,Liquid AI 的 LFM2-VL 是推動多模態 AI 走向普及化的重要一步。它證明了我們不必為了追求極致性能而犧牲效率,也為無數開發者和創新者打開了一扇通往全新應用世界的大門。
常見問題解答 (FAQ)
Q1:LFM2-VL 和其他大型視覺語言模型(如 GPT-4V)有什麼不同?
最大的不同在於設計理念。像 GPT-4V 這樣的大型模型主要在雲端運行,目標是追求最強大的綜合能力。而 LFM2-VL 的核心目標是效率和低延遲,專為在資源有限的設備上(如手機)本地運行而優化,是為了解決「邊緣運算」場景而生的模型。
Q2:我可以在我的專案中免費使用 LFM2-VL 嗎?
是的,LFM2-VL 採用開放權重授權,對於學術研究和大多數商業用途是免費的。不過,根據官方說明,大型企業若要進行商業部署,則需要另外聯繫 Liquid AI 取得商業授權。建議在使用前,先到 Hugging Face 頁面詳細閱讀其授權條款。
Q3:我該如何選擇 LFM2-VL-450M 和 LFM2-VL-1.6B 兩個版本?
這取決於您的硬體限制和性能需求。如果您的目標是智慧手錶、低功耗 IoT 設備等運算資源非常有限的平台,450M 版本會是更合適的選擇。如果您在高階智慧型手機、筆記型電腦或有獨立 GPU 的設備上開發,1.6B 版本將提供更強大的理解和推理能力。


