tool

DeepSeek-OCR横空出世:用「看图」彻底改变AI处理文字的方式

October 21, 2025
Updated Oct 21
1 min read

人工智能新创公司 DeepSeek 近日发表了一款名为 DeepSeek-OCR 的开源模型,提出「上下文光学压缩」的创新概念。它不再逐字阅读,而是将大量文字转换为图像,让AI用「看图」的方式来理解,大幅降低了处理长文本的运算成本。这项技术不仅在压缩率和准确率上表现惊人,更在多语言、图表、化学式等多樣化場景中展現了強大的應用潛力,為解決大型語言模型(LLM)的長文本處理難題開闢了一條全新的道路。


你有没有想过,对AI来说,阅读一篇长篇大论,可能比看一张图还费力?这听起来有点违反直觉,但却是当前大型语言模型(LLM)面临的现实困境。随着文本长度的增加,运算成本呈指数级增长,这极大地限制了AI处理复杂文件的能力。

为了解决这个问题,来自杭州的新创公司 DeepSeek 提出了一个堪称「异想天开」的解决方案:DeepSeek-OCR。这款模型的核心思想,是将文字「光学化」,把成千上万的文字Token压缩成数百个视觉Token,让AI从「阅读者」转变为「看图者」。

一个颠覆性的想法:上下文光学压缩

这项被称为「上下文光学压缩」(Contexts Optical Compression)的技术,旨在利用视觉这种媒介来高效压缩文字资讯。简单来说,它先把长篇的文字内容渲染成一张或多张图片,然后再让模型来「读取」这些图片。

你可能会问,这样做的意义何在?答案是:效率

实验数据表明,在10倍的压缩率下,DeepSeek-OCR的解码准确率高达97%,几乎是无损压缩;即便是在接近20倍的极限压缩下,准确率仍能维持在60%左右。 这意味着,一篇1000个单词的文章,可以被压缩成仅需100个视觉Token就能代表的图像,而模型依然能准确理解其内容。

这项突破为解决LLM的长文本挑战提供了一个极具潜力的方向,同时也为AI的记忆与遗忘机制研究带来了新的启发。

DeepSeek-OCR 的核心架构:双引擎驱动

DeepSeek-OCR 的强大能力,源于其精心设计的双组件架构:DeepEncoderDeepSeek3B-MoE 解码器

  1. DeepEncoder(深度编码器):作为核心引擎,它专为高分辨率、高压缩率的文件处理而设计。它巧妙地结合了两种注意力机制:基于SAM的「窗口注意力」用来捕捉局部细节,而基于CLIP的「全局注意力」则负责理解整体视觉知识。 这种设计确保了在高分辨率输入下,模型能保持低活跃度,并产出极少量的视觉Token,从而有效控制运算资源。

  2. DeepSeek3B-MoE 解码器:这是一个拥有5.7亿活跃参数的「专家混合」(Mixture-of-Experts)模型。 它的作用是将DeepEncoder压缩后的视觉Token,精准地还原成原始的文字内容。MoE架构让模型在处理特定任务时,只会「唤醒」一部分专家网络,从而在保证强大表达能力的同时,维持了极高的运算效率。

性能超越主流模型,重新定义OCR标竿

在实际测试中,DeepSeek-OCR 的表现令人印象深刻。在权威的 OmniDocBench 文件理解基准测试中,它仅用100个视觉Token,就超越了需要256个Token的GOT-OCR2.0模型;并且,使用少于800个视觉Token,其性能就超过了平均需要近7000个Token的MinerU2.0。

这些数据充分证明,DeepSeek-OCR不仅是一个实验性的概念,更具备了强大的实际应用价值。在生产环境中,仅需单张NVIDIA A100-40G GPU,每天就能生成超过20万页的训练数据,为大规模文件理解和多模态模型训练提供了坚实的基础。

不只是文字识别:「深度解析」开启无限可能

DeepSeek-OCR 的能力远不止于简单的文字提取。它拥有一项被称为「深度解析」(Deep Parsing)的杀手级功能,能够透过二次模型调用,深入解析文件中的复杂图像内容。

这意味着,无论是财报中的图表、论文里的化学式,还是教科书上的几何图形,DeepSeek-OCR都能准确识别,并将其转换为结构化的数据格式,例如HTML表格或SMILES化学式。 这在金融、科研和教育等领域具有不可估量的应用价值。

此外,得益于其在超过100种语言的大规模数据集上的训练,DeepSeek-OCR 还具备强大的多语言处理能力,能够轻松应对全球化的文件处理需求。

未来的展望:通往无限上下文的道路

DeepSeek-OCR 的出现,不仅仅是一款新模型的发布,它更像是一种对未来AI架构的探索。 这种将历史对话或旧有资料渲染成图片,并根据时间远近调整其解析度和Token占用的方式,模拟了人类的记忆曲线——新记忆清晰,旧记忆模糊。

这项技术有望为实现「理论上无限的上下文架构」铺平道路,让AI能够在保持高效运算的同时,兼顾资讯的长期记忆与保留。

目前,DeepSeek-OCR的模型权重已在 Hugging FaceGitHub 上开源,供开发者和研究人员探索。这项技术的潜力才刚刚开始被挖掘,它将如何改变我们与资讯互动的方式,值得我们共同期待。

分享到:
Featured Partners

© 2026 Communeify. All rights reserved.