



本研究主要有三方面贡献值得关注:
第一,对视觉-文本令牌压缩比进行了全面的定量分析。结果表明,紧凑型语言模型能够有效学习解码压缩后的视觉表征,这意味着更大规模的大语言模型(LLMs)可通过合理的预训练设计轻松获得类似能力。
第二,提出了一种新型架构DeepEncoder,即便在高分辨率输入下也能保持低激活内存和最少的视觉令牌。它通过一个16倍卷积压缩器,将窗口注意力和全局注意力编码器组件串联起来,实现有效的内存和令牌压缩。
第三,基于DeepEncoder和DeepSeek3B-MoE开发了DeepSeek-OCR,初步探索了将视觉模态用作大语言模型中文本信息处理的高效压缩媒介。

研究人员还为该模型配备了解析图表、化学公式、简单几何图形和自然图像的能力,以进一步提升其实用价值,在生产环境中,DeepSeek-OCR使用20个节点(每个节点配备8张A100-40G GPU),每天可为大语言模型(LLMs)或视觉语言模型(VLMs)生成3300万页数据。

DeepSeek-OCR不仅仅是一个OCR工具,还是一个具备“深度解析”能力的多面手,只需一个统一的提示词,它就能对各种复杂图像进行结构化提取,官方给了几个例子:

例如在金融研究报告领域,DeepSeek-OCR的深度解析模式可用于获取文档中图表的结构化结果。图表是金融和科学领域中关键的数据呈现形式,而图表结构化提取是未来OCR模型不可或缺的能力。

对于书籍和文章而言,深度解析模式能够为文档中的自然图像输出密集的说明文字,只需一个提示词,模型就能自动识别图像类型并输出所需结果。
处于深度解析模式的DeepSeek-OCR还能识别化学文档中的化学公式,并将其转换为SMILES格式,未来,OCR 1.0+2.0技术或许会在STEM领域的视觉语言模型(VLM)、大语言模型(LLM)发展中发挥重要作用。

DeepSeek-OCR还具备复制(结构化)简单平面几何图形的能力,以及具备近100种语言的OCR能力,少数民族语言文档也能通过不同的提示词,支持布局化和非布局化两种输出形式。
此外,研究人员还保留了DeepSeek-OCR在通用视觉理解方面的能力,主要包括图像描述、目标检测、视觉定位等。同时,由于纳入了纯文本数据,DeepSeek-OCR的语言能力也得以保留。
需注意的是,由于模型未包含SFT(监督微调)阶段,该模型并非聊天机器人,部分能力需要通过补全提示词才能激活。

DeepSeek-OCR在约10倍压缩比下实现了近无损OCR压缩,而在20倍压缩比下仍能保持60%的准确率,这个新发现为未来应用指明了极具前景的方向,例如在多轮对话中,对超过k轮的对话历史实施光学处理,以实现10倍的压缩效率。
不止如此,DeepSeek团队还提出了一个创新的概念——用光学压缩模拟人类的遗忘机制。

这种方法很像人类记忆的衰退曲线,初步探索显示出可扩展超长上下文处理的潜力,如果真能实现,对于处理超长上下文将是个巨大突破,理论上是不是可以支撑“无限上下文”?

研究人员最后指出,仅依靠OCR其实还无法充分验证真正的上下文光学压缩,未来他们将开展数字-光学文本交错预训练、大海捞针信息检索测试及其他相关评估。
从另一角度来看,光学上下文压缩仍存在广阔的研究与改进空间,是一个极具前景的新方向。
未来,随着这类技术的成熟,我们或许能够看到AI模型像人类一样,自然地记住重要信息,而让次要细节随时间逐渐淡化,这种能力将使AI更高效、更智能。