tool

AI 不再依赖云端?Liquid AI 推出 LFM2-VL,让你的手机也能看懂世界

August 21, 2025
Updated Aug 21
1 min read

厌倦了需要时刻连网的 AI 吗?Liquid AI 推出的全新视觉语言模型 LFM2-VL,专为手机、穿戴装置等边缘设备设计。它不仅速度快、效率高,还能保持顶尖的准确度,彻底改变我们对设备端 AI 的想像。


你有没有想过,如果你的手机相机不只能拍照,还能即时理解你眼前所见的一切,并与你对话?这听起来像是科幻电影的情节,但长期以来,强大的 AI 模型都因体积庞大而只能存在于云端伺服器中,让这个梦想显得有些遥远。

但现在,情况可能要改变了。

人工智能公司 Liquid AI 最近投下了一颗震撼弹,正式推出 LFM2-VL——一个专为「设备端」部署而生的全新视觉语言基础模型系列。这系列包含 LFM2-VL-450M 和 LFM2-VL-1.6B 两个版本,它们的目标非常明确:让强大的多模态 AI 能直接在你的智慧型手机、笔记型电脑、甚至智慧手表上高效运行,而且速度和准确度一点都不马虎。

速度与智慧的完美结合?LFM2-VL 的核心优势

过去,我们总要在 AI 的「速度」与「智慧」之间做出取舍。模型越聪明,通常就越庞大、越慢。但 LFM2-VL 似乎找到了那个完美的平衡点。

根据 Liquid AI 的说法,LFM2-VL 的 GPU 推理速度是现有同类模型的两倍。这意味着什么?这意味着 AI 应用程式的反应会更即时、延迟更低,无论是进行图像描述、视觉问答还是复杂的多模态推理,都能有更流畅的体验。

为了满足不同设备的需求,LFM2-VL 提供了两种选择:

  • LFM2-VL-450M: 拥有 4.5 亿个参数,专为资源极度有限的环境设计,例如穿戴式装置或入门级的嵌入式系统。
  • LFM2-VL-1.6B: 拥有 16 亿个参数,在保持轻量级的同时,提供了更强大的性能,非常适合在高阶智慧型手机或配备单一 GPU 的设备上运行。

这就像拥有一台轻便的笔记型电脑和一台高效能的工作站,你可以根据任务需求自由选择。

拆解幕后黑科技:「像素解混」与原生解析度

所以,LFM2-VL 是如何做到既快又强的?答案就在其创新的模组化架构和聪明的影像处理技术。

简单来说,这个模型由三个核心部分组成:一个语言模型主干(负责理解与生成文字)、一个视觉编码器(负责「看懂」图片),以及一个多模态投影器(负责将两者串连起来)。

其中最关键的技术,是一种称为**「像素解混 (pixel un-shuffling)」**的技巧。你可以把它想像成一种智慧压缩。在处理图片时,模型并非逐一分析每个像素,而是动态地减少需要处理的影像资讯数量,只保留最关键的特徵。这让它在不牺牲太多细节的情况下,大幅提升了影像处理速度。

此外,LFM2-VL 还能以高达 512x512 像素的原生解析度处理影像,避免了传统模型放大图片时可能造成的失真。如果遇到更大的图片,它会聪明地将其分割成多个 512x512 的区块分别处理,确保了细节和长宽比的完整性。更有趣的是,1.6B 的版本还会额外为全图生成一个缩图,用来理解整张图片的「全域脉络」,既能看见树木,也能看见森林。

实际表现如何?跑分数据见真章

当然,光说不练假把戏。LFM2-VL 的实际表现究竟如何?让我们直接看看数据。

ModelRealWorldQAMM-IFEvalOCRBenchMME
LFM2-VL-1.6B65.2337.667421753.04
LFM2-VL-450M52.2926.186551239.06
InternVL3-2B65.1038.49*8312186.40
SmolVLM2-2.2B57.5019.42*7251792.50

从上方的基准测试结果(Table 1)中,我们可以清楚看到,LFM2-VL-1.6B 在多项评测中,其表现都与体积更大的 InternVL3-2B 或 SmolVLM2-2.2B 不相上下,甚至在某些项目中更为出色。

举例来说,在真实世界问答(RealWorldQA)测试中,LFM2-VL-1.6B 的分数(65.23)略高于 InternVL3-2B(65.10)。虽然在光学字元辨识(OCRBench)等项目上分数稍低,但考量到它更小的记忆体占用和更快的处理速度,这样的性能表现无疑是非常惊人的。这证明了 LFM2-VL 确实达成了在效率和性能之间的绝佳平衡。

开放与弹性:开发者的全新利器

对于开发者和企业来说,最强大的工具也需要易于取得和使用。Liquid AI 深知这一点。

LFM2-VL 的两种模型均采用开放权重 (open-weights) 的方式,并已在知名的 AI 社群平台 Hugging Face 上开放下载,可供研究和商业使用(大型企业需另行联系 Liquid AI 取得授权)。

这代表着:

  • 无缝整合: 开发者可以轻松地将模型与 Hugging Face Transformers 函式库结合,快速应用到自己的专案中。
  • 进一步优化: 模型支援量化技术,可以将其体积进一步压缩,提升在边缘硬体上的运行效率。
  • 弹性调整: 使用者可以在推理时,根据设备能力和应用需求,动态调整速度和品质的平衡。

未来的应用场景:当 AI 真正走出云端

LFM2-VL 的出现,不仅仅是一款新模型的发布,它更为我们描绘了一个 AI 应用遍地开花的未来蓝图。当强大的 AI 不再依赖云端,许多过去难以实现的应用都将成为可能:

  • 智慧机器人: 工厂里的机器人可以即时识别产品瑕疵,无需等待网路讯号。
  • 物联网 (IoT) 装置: 家中的智慧摄影机能够在本地端辨识异常情况并即时发出警报,保护用户隐私。
  • 行动助理: 手机助理可以直接「看见」你镜头前的物品并提供相关资讯,成为你真正的随身百科。

这一切都指向一个核心趋势:减少对云端的依赖,将带来更快、更可靠、也更注重隐私的 AI 体验。

总而言之,Liquid AI 的 LFM2-VL 是推动多模态 AI 走向普及化的重要一步。它证明了我们不必为了追求极致性能而牺牲效率,也为无数开发者和创新者打开了一扇通往全新应用世界的大门。


常见问题解答 (FAQ)

Q1:LFM2-VL 和其他大型视觉语言模型(如 GPT-4V)有什么不同?

最大的不同在于设计理念。像 GPT-4V 这样的大型模型主要在云端运行,目标是追求最强大的综合能力。而 LFM2-VL 的核心目标是效率低延迟,专为在资源有限的设备上(如手机)本地运行而优化,是为解决「边缘运算」场景而生的模型。

Q2:我可以在我的专案中免费使用 LFM2-VL 吗?

是的,LFM2-VL 采用开放权重授权,对于学术研究和大多数商业用途是免费的。不过,根据官方说明,大型企业若要进行商业部署,则需要另外联系 Liquid AI 取得商业授权。建议在使用前,先到 Hugging Face 页面详细阅读其授权条款。

Q3:我该如何选择 LFM2-VL-450M 和 LFM2-VL-1.6B 两个版本?

这取决于您的硬体限制和性能需求。如果您的目标是智慧手表、低功耗 IoT 设备等运算资源非常有限的平台,450M 版本会是更合适的选择。如果您在高阶智慧型手机、笔记型电脑或有独立 GPU 的设备上开发,1.6B 版本将提供更强大的理解和推理能力。

分享到:
Featured Partners

© 2026 Communeify. All rights reserved.