整新活儿!DeepSeek低调推出一款开源OCR模型,探索上下文“光学压缩”潜能

头部科技 2025-10-20 20:39
整新活儿!DeepSeek低调推出一款开源OCR模型,探索上下文“光学压缩”潜能图1
文丨谭梓馨
今天,DeepSeek-AI一个三人小队发布了一项开源新成果——DeepSeek-OCR模型,创新提出了一种通过视觉模态压缩长文本上下文的巧妙方法。
这一3B参数规模的模型,试图解决当前大语言模型处理长文本时计算复杂度高、成本居高不下的痛点。
整新活儿!DeepSeek低调推出一款开源OCR模型,探索上下文“光学压缩”潜能图2
研究人员在论文里介绍,这是一项对通过光学二维映射压缩长上下文可行性的初步研究,DeepSeek-OCR包含两个组件:DeepEncoder和作为解码器的 DeepSeek3B-MoE-A570M。
实验表明,当文本令牌数量在视觉令牌数量的10倍以内时(即压缩比<10×),模型的解码(OCR)精度可达97%;即便在20×的压缩比下,OCR准确率仍保持在60%左右,这为历史长上下文压缩、大语言模型(LLMs)中的记忆遗忘机制等研究领域展现出巨大潜力。
DeepSeek-OCR还具有很高的实用价值,在实际生产中,DeepSeek-OCR可为大语言模型(LLMs)/ 视觉语言模型(VLMs)生成训练数据,规模可达每天20万+页(单张A100-40G显卡)。
整新活儿!DeepSeek低调推出一款开源OCR模型,探索上下文“光学压缩”潜能图3
“光学压缩”的意外惊喜
在Fox基准测试上的压缩比测试结果和在OmniDocBench上的性能对比显示,在使用视觉令牌最少的端到端模型中,DeepSeek-OCR都能实现最先进的性能。
它仅使用100个视觉令牌就超越了GOT-OCR2.0(256个令牌/页),且使用不足800个视觉令牌时,性能优于MinerU2.0(平均每页数千个令牌)。
整新活儿!DeepSeek低调推出一款开源OCR模型,探索上下文“光学压缩”潜能图4

本研究主要有三方面贡献值得关注:

第一,对视觉-文本令牌压缩比进行了全面的定量分析。结果表明,紧凑型语言模型能够有效学习解码压缩后的视觉表征,这意味着更大规模的大语言模型(LLMs)可通过合理的预训练设计轻松获得类似能力。

第二,提出了一种新型架构DeepEncoder,即便在高分辨率输入下也能保持低激活内存和最少的视觉令牌。它通过一个16倍卷积压缩器,将窗口注意力和全局注意力编码器组件串联起来,实现有效的内存和令牌压缩。

第三,基于DeepEncoder和DeepSeek3B-MoE开发了DeepSeek-OCR,初步探索了将视觉模态用作大语言模型中文本信息处理的高效压缩媒介。

整新活儿!DeepSeek低调推出一款开源OCR模型,探索上下文“光学压缩”潜能图5

研究人员还为该模型配备了解析图表、化学公式、简单几何图形和自然图像的能力,以进一步提升其实用价值,在生产环境中,DeepSeek-OCR使用20个节点(每个节点配备8张A100-40G GPU),每天可为大语言模型(LLMs)或视觉语言模型(VLMs)生成3300万页数据。

整新活儿!DeepSeek低调推出一款开源OCR模型,探索上下文“光学压缩”潜能图6
超越OCR的“深度解析”能力
这种被称为“光学压缩”的方法,实际上是用视觉模态来给文本信息“瘦身”,OCR技术天然适合验证这一思路,因为它本身就在做“视觉→文本”的转换,且效果能够被量化评估。

DeepSeek-OCR不仅仅是一个OCR工具,还是一个具备“深度解析”能力的多面手,只需一个统一的提示词,它就能对各种复杂图像进行结构化提取,官方给了几个例子:

整新活儿!DeepSeek低调推出一款开源OCR模型,探索上下文“光学压缩”潜能图7

例如在金融研究报告领域,DeepSeek-OCR的深度解析模式可用于获取文档中图表的结构化结果。图表是金融和科学领域中关键的数据呈现形式,而图表结构化提取是未来OCR模型不可或缺的能力。

整新活儿!DeepSeek低调推出一款开源OCR模型,探索上下文“光学压缩”潜能图8

对于书籍和文章而言,深度解析模式能够为文档中的自然图像输出密集的说明文字,只需一个提示词,模型就能自动识别图像类型并输出所需结果。

处于深度解析模式的DeepSeek-OCR还能识别化学文档中的化学公式,并将其转换为SMILES格式,未来,OCR 1.0+2.0技术或许会在STEM领域的视觉语言模型(VLM)、大语言模型(LLM)发展中发挥重要作用。

整新活儿!DeepSeek低调推出一款开源OCR模型,探索上下文“光学压缩”潜能图9

DeepSeek-OCR还具备复制(结构化)简单平面几何图形的能力,以及具备近100种语言的OCR能力,少数民族语言文档也能通过不同的提示词,支持布局化和非布局化两种输出形式。

此外,研究人员还保留了DeepSeek-OCR在通用视觉理解方面的能力,主要包括图像描述、目标检测、视觉定位等。同时,由于纳入了纯文本数据,DeepSeek-OCR的语言能力也得以保留。

需注意的是,由于模型未包含SFT(监督微调)阶段,该模型并非聊天机器人,部分能力需要通过补全提示词才能激活。

整新活儿!DeepSeek低调推出一款开源OCR模型,探索上下文“光学压缩”潜能图10
模拟人类“记忆遗忘”机制

DeepSeek-OCR在约10倍压缩比下实现了近无损OCR压缩,而在20倍压缩比下仍能保持60%的准确率,这个新发现为未来应用指明了极具前景的方向,例如在多轮对话中,对超过k轮的对话历史实施光学处理,以实现10倍的压缩效率。

不止如此,DeepSeek团队还提出了一个创新的概念——用光学压缩模拟人类的遗忘机制。

整新活儿!DeepSeek低调推出一款开源OCR模型,探索上下文“光学压缩”潜能图11
对于较旧的上下文,可以逐步缩小渲染图像的尺寸,以进一步减少令牌消耗,这一设想的灵感来源于人类记忆随时间衰减与视觉感知随空间距离退化之间的天然相似性——二者均呈现出渐进式信息丢失的相似模式。
通过结合这些机制,上下文光学压缩方法能够实现一种模拟生物遗忘曲线的记忆衰减过程:近期信息保持高保真度,而远期记忆则通过更高的压缩比自然“淡化”。

这种方法很像人类记忆的衰退曲线,初步探索显示出可扩展超长上下文处理的潜力,如果真能实现,对于处理超长上下文将是个巨大突破,理论上是不是可以支撑“无限上下文”?

整新活儿!DeepSeek低调推出一款开源OCR模型,探索上下文“光学压缩”潜能图12

研究人员最后指出,仅依靠OCR其实还无法充分验证真正的上下文光学压缩,未来他们将开展数字-光学文本交错预训练、大海捞针信息检索测试及其他相关评估。

从另一角度来看,光学上下文压缩仍存在广阔的研究与改进空间,是一个极具前景的新方向。

未来,随着这类技术的成熟,我们或许能够看到AI模型像人类一样,自然地记住重要信息,而让次要细节随时间逐渐淡化,这种能力将使AI更高效、更智能。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
从课堂到产业:是什么让学生也能成为开源鸿蒙的共建者
AI 应用方式展望,关于开源、SaaS 以及企业级智能体 | 区势· AI
快讯|美国公司推出Yogi硅胶人形机器人;TetherIA打造欠驱动开源机械手;2025中国机器人大赛暨RoboCup落幕等
开源对机器人的价值,远超想象丨唐文斌深度对谈抱抱脸联创
机器人连续叠衣120分钟!仅用0.9B参数实现五大SOTA|清华AIR & 上海AI Lab开源
宇树发布 H2 仿生人形机器人;DeepSeek 开源新视觉模型;国航公布「锂电池自燃事件」赔偿标准|极客早知道
重磅!DeepSeek再开源:视觉即压缩,100个token干翻7000个
Qwen3-VL再添丁!4B/8B Dense模型开源,更轻量,仍强大
北京人形开源WoW世界模型!140亿参数!200万条互动轨迹!5275项任务!具身智能DeepSeek来了!
边打字边出片,交互式生成长视频!英伟达联合MIT开源新SOTA
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号